Este artigo é quase bom demais para eu querer partilhá-lo Ignore o clickbait do OpenClaw, OPD + RL em tarefas reais com agentes significativos e resultados significativos é muito empolgante, e nos afasta da necessidade de recompensas verificáveis Autores: @YinjieW2024 Xuyang Chen, Xialong Jin, @MengdiWang10 @LingYang_PU