Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apple har precis bevisat att det inte finns något behov av stormodell-hyperparametersökningar, eftersom engångssökning i små modeller räcker!
Denna artikel introducerar Complete(d)P, en "skalkorrekt" träningsparametrisering som låter dig justera hyperparametrar (LR, AdamW, viktminskning, init, residual multiplikatorer) på en liten modell och återanvända dem oförändrade vid skalning av bredd, djup, batchstorlek och träningshorisont, även per modul.
I experiment överförs inställningar vid 50 meter till ~600 gånger större körningar, vilket minskar träningen till samma förlust med ~2,3 gånger i liten skala och ger ~1,32 gånger hastighetsökning vid 7,2 miljarder

Topp
Rankning
Favoriter
