Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tento článek od NVIDIA mi prostě zlomil mozek.
Všichni pořád mluví o škálování transformátorů s většími clustery a chytřejšími optimalizátory... mezitím NVIDIA a Oxford právě ukázaly, že lze trénovat modely s miliardami parametrů pomocí evolučních strategií, metodu, kterou většina lidí považovala za starou.
Trik je v novém systému nazvaném EGGROLL, který převrací celý nákladový model ES.
Normálně ES umírá ve velkém měřítku, protože musíte generovat perturbacní matice plných hodností pro každého člena populace. U modelů s miliardou parametrů to znamená šílený pohyb paměti a absurdní výpočetní výkon.
Tito lidé to vyřešili generováním nízkohodnotných perturbací pomocí dvou úzkých matic A a B a nechali ABT fungovat jako aktualizaci.
Průměr populace se pak chová jako kompletní aktualizace hodnosti, aniž by platil cenu za plnou hodnost.
Výsledek?
Používají evoluční strategie s populacemi v populacích v řádu stovek tisíc, kterých se dřívější práce nedokázala dotknout, protože vše se roztavilo pod tlakem na paměť. Propustnost je v podstatě stejně rychlá jako dávková inference.
To je u jakékoli metody bez gradientu neslýchané.
Matematika také sedí.
Aproximace nízké hodnosti konverguje k skutečnému ES gradientu rychlostí 1/r, takže posun ranku reprodukuje plné chování ES bez výpočetní exploze.
Ale právě experimenty jsou tam, kde to začíná být šílené.
→ Předtrénují rekurentní LM od nuly pouze pomocí celočíselných datových typů. Žádné skluzy. Žádný vrtulový rám. Plně stabilní i při hyperměřítku.
→ Odpovídají metodám úrovně GRPO na benchmarkech LLM uvažování.
To znamená, že ES může konkurovat moderním přístupům RL pro uvažování u skutečných úkolů.
→ ES se najednou stává životaschopnou pro masivní, diskrétní, hybridní a nediferencovatelné systémy přesně tam, kde je zadní vrtul bolestivý nebo nemožný.
...

Top
Hodnocení
Oblíbené

