Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apple hat gerade bewiesen, dass es keine großen Hyperparameter-Suchen für große Modelle benötigt, da eine einmalige Suche mit kleinen Modellen ausreicht!
Dieses Papier stellt Complete(d)P vor, eine "skalierungsrichtige" Trainingsparametrisierung, die es Ihnen ermöglicht, Hyperparameter (LR, AdamW, Gewichtszunahme, Initialisierung, Residualmultiplikatoren) an einem kleinen Modell zu optimieren und sie unverändert wiederzuverwenden, wenn Sie Breite, Tiefe, Batch-Größe und Trainingshorizont skalieren, sogar pro Modul.
In Experimenten übertragen sich die Einstellungen, die bei 50M gefunden wurden, auf ~600x größere Läufe, wodurch das Training auf denselben Verlust um ~2,3x bei kleinem Maßstab verkürzt wird und eine ~1,32x Beschleunigung bei 7,2B erzielt wird.

Top
Ranking
Favoriten
