熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
好吧,不想當黑子,但這份 $4.2M 的 RL 擴展論文似乎有點被過度炒作了?這一點在論文本身上稍微有些,更多的是在推特上的發文者。
從初步閱讀來看,這似乎又是一組對 GRPO 的調整,不過這次是基於不同的計算預算進行訓練,但 - 重要的是 - 只針對相對較小的模型(Llama 3 8B 和 Llama 4 Scout),以及一個 100% 數學問題的數據集。
主要的新穎之處在於他們為獎勵圖擬合了一條曲線,這,呃,算是酷吧?
最棒的是代碼庫,只有一個文件,重點在於 `from scipy.optimize import curve_fit`
我支持更有原則的 RL 研究,但你幾乎無法在單一環境中宣稱擴展法則,因為 RL 訓練環境可以說比預訓練數據集更具多樣性。而且我仍然有一種隱約的懷疑(而且沒有預算去驗證)認為,在超大模型(>100B?)上進行 RL 是一種質量上不同的情況,而不是在小型模型上。
LLM 擴展法則的偉大之處在於,對於給定的預算,你可以事先估算一些超參數,從而節省超參數猜測的時間。我很難在這裡找到任何類似的見解。
但嘿,它用了 400k GPU 小時。

熱門
排行
收藏

