Tento článek od NVIDIA mi prostě zlomil mozek. Všichni pořád mluví o škálování transformátorů s většími clustery a chytřejšími optimalizátory... mezitím NVIDIA a Oxford právě ukázaly, že lze trénovat modely s miliardami parametrů pomocí evolučních strategií, metodu, kterou většina lidí považovala za starou. Trik je v novém systému nazvaném EGGROLL, který převrací celý nákladový model ES. Normálně ES umírá ve velkém měřítku, protože musíte generovat perturbacní matice plných hodností pro každého člena populace. U modelů s miliardou parametrů to znamená šílený pohyb paměti a absurdní výpočetní výkon. Tito lidé to vyřešili generováním nízkohodnotných perturbací pomocí dvou úzkých matic A a B a nechali ABT fungovat jako aktualizaci. Průměr populace se pak chová jako kompletní aktualizace hodnosti, aniž by platil cenu za plnou hodnost. Výsledek? Používají evoluční strategie s populacemi v populacích v řádu stovek tisíc, kterých se dřívější práce nedokázala dotknout, protože vše se roztavilo pod tlakem na paměť. Propustnost je v podstatě stejně rychlá jako dávková inference. To je u jakékoli metody bez gradientu neslýchané. Matematika také sedí. Aproximace nízké hodnosti konverguje k skutečnému ES gradientu rychlostí 1/r, takže posun ranku reprodukuje plné chování ES bez výpočetní exploze. Ale právě experimenty jsou tam, kde to začíná být šílené. → Předtrénují rekurentní LM od nuly pouze pomocí celočíselných datových typů. Žádné skluzy. Žádný vrtulový rám. Plně stabilní i při hyperměřítku. → Odpovídají metodám úrovně GRPO na benchmarkech LLM uvažování. To znamená, že ES může konkurovat moderním přístupům RL pro uvažování u skutečných úkolů. → ES se najednou stává životaschopnou pro masivní, diskrétní, hybridní a nediferencovatelné systémy přesně tam, kde je zadní vrtul bolestivý nebo nemožný. ...