Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Interpretace je taková, že po tréninku jsou vaše váhy v podstatě stejně vzdálené od všech úkolů, které během předtréninku viděl (model viděl všechny úkoly, takže si je přitáhl k sobě). Tato metoda tedy pouze narušuje váhy a sleduje, které poruchy přibližují síť k vážením specifickým pro daný úkol. Je to jako opravdu levná Lora
To také souvisí s pozorováním, že post-trénink nepřidává znalosti, ale pouze vytesává distribuci předtréninku

13. 3. 23:41
Jednoduše přidání gaussovského šumu do LLM (jeden krok – žádné iterace, žádná rychlost učení, žádné gradienty) a jejich složení může dosáhnout výkonu srovnatelného nebo dokonce lepšího než standardní GRPO/PPO v úlohách z matematického uvažování, programování, psaní a chemie. Tento algoritmus nazýváme RandOpt.
Abychom ověřili, že to není omezeno jen na konkrétní modely, testovali jsme to na Qwen, Llama, OLMo3 a VLM.
Co je za tím? Zjistili jsme, že v gaussovském hledacím prostředí kolem předtrénovaných LLM jsou různorodí experti na úkoly hustě rozptýleni — režim, který nazýváme Neurální houštiny.
Článek:
Kód:
Web:

Rušící závaží jsou v podstatě analogické náhodným vyvalením při vysokých teplotách. Myslím, že to může být iterativní (jako GRPO).
Perturbní závaží s velkým poloměrem -> vybrat lepší výkony -> stále snižovat poloměr
To *by* mělo zvýšit přesnost úkolu
@yule_gan jsi to zkoušel?
31
Top
Hodnocení
Oblíbené
