一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們在非同步強化學習訓練穩定性方面走了很長一段路不久前，天真的 grpo 會因為不匹配而在 torch compile 時崩潰。但現在我們可以在政策上走得很遠，以處理代理強化學習在 prime-rl 損失計算中有很多非常重要的細節，啟用我們最新的穩定性改進在我們的一些運行中會對 kl 不匹配產生重大影響

大部分來自 @Grad62304977 在最近的論文中找到的 alpha

127