一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

蘋果剛剛證明了不需要進行大型模型的超參數搜尋，因為一次的小型模型搜尋就足夠了！這篇論文介紹了Complete(d)P，一種“規模正確”的訓練參數化方法，讓你可以在小型模型上調整超參數（學習率、AdamW、權重衰減、初始化、殘差乘數），並在擴展寬度、深度、批次大小和訓練時間時無需更改地重用它們，甚至可以按模塊進行。在實驗中，50M時找到的設置可以轉移到約600倍更大的運行，將訓練時間縮短到相同損失的約2.3倍，並在7.2B時提供約1.32倍的加速。