Această lucrare este aproape prea bună încât nu am vrut să o împărtășesc Ignorând clickbait-ul OpenClaw, OPD + RL pe sarcini reale de agent cu rezultate semnificative este foarte interesant și ne îndepărtează de nevoia de recompense verificabile Autori: @YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU