Apple hat gerade bewiesen, dass es keine großen Hyperparameter-Suchen für große Modelle benötigt, da eine einmalige Suche mit kleinen Modellen ausreicht! Dieses Papier stellt Complete(d)P vor, eine "skalierungsrichtige" Trainingsparametrisierung, die es Ihnen ermöglicht, Hyperparameter (LR, AdamW, Gewichtszunahme, Initialisierung, Residualmultiplikatoren) an einem kleinen Modell zu optimieren und sie unverändert wiederzuverwenden, wenn Sie Breite, Tiefe, Batch-Größe und Trainingshorizont skalieren, sogar pro Modul. In Experimenten übertragen sich die Einstellungen, die bei 50M gefunden wurden, auf ~600x größere Läufe, wodurch das Training auf denselben Verlust um ~2,3x bei kleinem Maßstab verkürzt wird und eine ~1,32x Beschleunigung bei 7,2B erzielt wird.