蘋果剛剛證明了不需要進行大型模型的超參數搜尋,因為一次的小型模型搜尋就足夠了! 這篇論文介紹了Complete(d)P,一種“規模正確”的訓練參數化方法,讓你可以在小型模型上調整超參數(學習率、AdamW、權重衰減、初始化、殘差乘數),並在擴展寬度、深度、批次大小和訓練時間時無需更改地重用它們,甚至可以按模塊進行。 在實驗中,50M時找到的設置可以轉移到約600倍更大的運行,將訓練時間縮短到相同損失的約2.3倍,並在7.2B時提供約1.32倍的加速。