DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Apple har precis bevisat att det inte finns något behov av stormodell-hyperparametersökningar, eftersom engångssökning i små modeller räcker! Denna artikel introducerar Complete(d)P, en "skalkorrekt" träningsparametrisering som låter dig justera hyperparametrar (LR, AdamW, viktminskning, init, residual multiplikatorer) på en liten modell och återanvända dem oförändrade vid skalning av bredd, djup, batchstorlek och träningshorisont, även per modul. I experiment överförs inställningar vid 50 meter till ~600 gånger större körningar, vilket minskar träningen till samma förlust med ~2,3 gånger i liten skala och ger ~1,32 gånger hastighetsökning vid 7,2 miljarder

Topp

Rankning

Favoriter