我們在非同步強化學習訓練穩定性方面走了很長一段路 不久前,天真的 grpo 會因為不匹配而在 torch compile 時崩潰。但現在我們可以在政策上走得很遠,以處理代理強化學習 在 prime-rl 損失計算中有很多非常重要的細節,啟用我們最新的穩定性改進在我們的一些運行中會對 kl 不匹配產生重大影響
大部分來自 @Grad62304977 在最近的論文中找到的 alpha
127