一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

*檢查 chatgpt* 這篇論文的成本約為 420 萬 USD（400K GB200 小時）-- 科學！我們最昂貴的運行是 100K GPU 小時（與 Deepseek-R1-zero 相同，但使用 GB200）。這裡的一個發現是，一旦我們擁有可擴展的強化學習算法，強化學習計算的擴展性就變得可預測（例如，我們從 16k GPU 小時推算到 50k 小時，對於 17Bx16 MoE 的計算量是 3 倍）。另一個是，在比較算法時，接受這個苦澀的教訓（試著預測在給定性能曲線下，它將如何隨著計算量的增加而擴展，而不僅僅是固定計算量下的性能）。在可擴展的強化學習方法中，大多數算法技巧不會改變漸近性能，但模型大小、上下文長度、批次大小和數據等因素會改變。當然，在強化學習中有許多設計選擇，因此我們不認為 ScaleRL 的配方是故事的結尾。