Эта работа почти слишком хороша, чтобы я хотел ею делиться Игнорируйте кликбейт OpenClaw, OPD + RL на реальных агентных задачах с значительными результатами очень захватывающи и позволяют нам отказаться от необходимости верифицируемых вознаграждений Авторы: @YinjieW2024 Сюян Чен, Сяолун Цзин, @MengdiWang10 @LingYang_PU