Apple právě dokázal, že není potřeba provádět hyperparametrové sweepy velkých modelů, protože jednorázové vyhledávání v malém modelu stačí! Tento článek představuje Complete(d)P, "škálově korektní" tréninkovou parametrizaci, která umožňuje ladit hyperparametry (LR, AdamW, pokles váhy, init, reziduální násobiče) na malém modelu a znovu je použít beze změny při škálování šířky, hloubky, velikosti dávky a trénovacího horizontu, dokonce i podle jednotlivých modulů. V experimentech se nastavení nalezená na 50 m přenáší na ~600x větší běhy, což snižuje ztráty tréninku na ~2,3x v malém měřítku a přináší ~1,32x zrychlení při 7,2B