熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
*檢查 chatgpt* 這篇論文的成本約為 420 萬 USD(400K GB200 小時)-- 科學!
我們最昂貴的運行是 100K GPU 小時(與 Deepseek-R1-zero 相同,但使用 GB200)。
這裡的一個發現是,一旦我們擁有可擴展的強化學習算法,強化學習計算的擴展性就變得可預測(例如,我們從 16k GPU 小時推算到 50k 小時,對於 17Bx16 MoE 的計算量是 3 倍)。
另一個是,在比較算法時,接受這個苦澀的教訓(試著預測在給定性能曲線下,它將如何隨著計算量的增加而擴展,而不僅僅是固定計算量下的性能)。
在可擴展的強化學習方法中,大多數算法技巧不會改變漸近性能,但模型大小、上下文長度、批次大小和數據等因素會改變。
當然,在強化學習中有許多設計選擇,因此我們不認為 ScaleRL 的配方是故事的結尾。
熱門
排行
收藏
