この論文はあまりにも素晴らしくて、共有したくなかった OpenClawのクリックベイトは無視しましょう。実際のエージェントのタスクで大きな成果を出すOPD+RLは非常に刺激的で、検証可能な報酬を必要としなくなります 著者:陳旭陽@YinjieW2024、西隆金、@MengdiWang10 @LingYang_PU