熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
蘋果剛剛證明了不需要進行大型模型的超參數搜尋,因為一次的小型模型搜尋就足夠了!
這篇論文介紹了Complete(d)P,一種“規模正確”的訓練參數化方法,讓你可以在小型模型上調整超參數(學習率、AdamW、權重衰減、初始化、殘差乘數),並在擴展寬度、深度、批次大小和訓練時間時無需更改地重用它們,甚至可以按模塊進行。
在實驗中,50M時找到的設置可以轉移到約600倍更大的運行,將訓練時間縮短到相同損失的約2.3倍,並在7.2B時提供約1.32倍的加速。

熱門
排行
收藏
