Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apple právě dokázal, že není potřeba provádět hyperparametrové sweepy velkých modelů, protože jednorázové vyhledávání v malém modelu stačí!
Tento článek představuje Complete(d)P, "škálově korektní" tréninkovou parametrizaci, která umožňuje ladit hyperparametry (LR, AdamW, pokles váhy, init, reziduální násobiče) na malém modelu a znovu je použít beze změny při škálování šířky, hloubky, velikosti dávky a trénovacího horizontu, dokonce i podle jednotlivých modulů.
V experimentech se nastavení nalezená na 50 m přenáší na ~600x větší běhy, což snižuje ztráty tréninku na ~2,3x v malém měřítku a přináší ~1,32x zrychlení při 7,2B

Top
Hodnocení
Oblíbené
