Interpretace je taková, že po tréninku jsou vaše váhy v podstatě stejně vzdálené od všech úkolů, které během předtréninku viděl (model viděl všechny úkoly, takže si je přitáhl k sobě). Tato metoda tedy pouze narušuje váhy a sleduje, které poruchy přibližují síť k vážením specifickým pro daný úkol. Je to jako opravdu levná Lora To také souvisí s pozorováním, že post-trénink nepřidává znalosti, ale pouze vytesává distribuci předtréninku
Yulu Gan
Yulu Gan13. 3. 23:41
Jednoduše přidání gaussovského šumu do LLM (jeden krok – žádné iterace, žádná rychlost učení, žádné gradienty) a jejich složení může dosáhnout výkonu srovnatelného nebo dokonce lepšího než standardní GRPO/PPO v úlohách z matematického uvažování, programování, psaní a chemie. Tento algoritmus nazýváme RandOpt. Abychom ověřili, že to není omezeno jen na konkrétní modely, testovali jsme to na Qwen, Llama, OLMo3 a VLM. Co je za tím? Zjistili jsme, že v gaussovském hledacím prostředí kolem předtrénovaných LLM jsou různorodí experti na úkoly hustě rozptýleni — režim, který nazýváme Neurální houštiny. Článek: Kód: Web:
Rušící závaží jsou v podstatě analogické náhodným vyvalením při vysokých teplotách. Myslím, že to může být iterativní (jako GRPO). Perturbní závaží s velkým poloměrem -> vybrat lepší výkony -> stále snižovat poloměr To *by* mělo zvýšit přesnost úkolu @yule_gan jsi to zkoušel?
31