Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apple ha appena dimostrato che non c'è bisogno di ampie ricerche sui parametri dei modelli, poiché una ricerca su piccoli modelli è sufficiente!
Questo documento introduce Complete(d)P, una parametrizzazione dei parametri di addestramento "corretta per la scala" che ti consente di ottimizzare i parametri (LR, AdamW, decadimento del peso, inizializzazione, moltiplicatori residui) su un piccolo modello e riutilizzarli invariati quando si scala la larghezza, la profondità, la dimensione del batch e l'orizzonte di addestramento, anche per modulo.
Negli esperimenti, le impostazioni trovate a 50M si trasferiscono a esecuzioni ~600 volte più grandi, riducendo l'addestramento allo stesso loss di ~2.3 volte a piccola scala e dando un'accelerazione di ~1.32 volte a 7.2B

Principali
Ranking
Preferiti
