*檢查 chatgpt* 這篇論文的成本約為 420 萬 USD(400K GB200 小時)-- 科學! 我們最昂貴的運行是 100K GPU 小時(與 Deepseek-R1-zero 相同,但使用 GB200)。 這裡的一個發現是,一旦我們擁有可擴展的強化學習算法,強化學習計算的擴展性就變得可預測(例如,我們從 16k GPU 小時推算到 50k 小時,對於 17Bx16 MoE 的計算量是 3 倍)。 另一個是,在比較算法時,接受這個苦澀的教訓(試著預測在給定性能曲線下,它將如何隨著計算量的增加而擴展,而不僅僅是固定計算量下的性能)。 在可擴展的強化學習方法中,大多數算法技巧不會改變漸近性能,但模型大小、上下文長度、批次大小和數據等因素會改變。 當然,在強化學習中有許多設計選擇,因此我們不認為 ScaleRL 的配方是故事的結尾。