Apple ha appena dimostrato che non c'è bisogno di ampie ricerche sui parametri dei modelli, poiché una ricerca su piccoli modelli è sufficiente! Questo documento introduce Complete(d)P, una parametrizzazione dei parametri di addestramento "corretta per la scala" che ti consente di ottimizzare i parametri (LR, AdamW, decadimento del peso, inizializzazione, moltiplicatori residui) su un piccolo modello e riutilizzarli invariati quando si scala la larghezza, la profondità, la dimensione del batch e l'orizzonte di addestramento, anche per modulo. Negli esperimenti, le impostazioni trovate a 50M si trasferiscono a esecuzioni ~600 volte più grandi, riducendo l'addestramento allo stesso loss di ~2.3 volte a piccola scala e dando un'accelerazione di ~1.32 volte a 7.2B