Ce document est presque trop bon pour que je veuille le partager Ignorez le clickbait d'OpenClaw, OPD + RL sur des tâches agentiques réelles avec des résultats significatifs est très excitant, et nous éloigne de la nécessité de récompenses vérifiables Auteurs : @YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU