Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modul de interpretare este că după post-antrenament greutățile tale sunt oarecum echidistante față de toate sarcinile pe care le-a văzut în timpul pre-antrenamentului (modelul a văzut toate sarcinile, deci le-a tras spre el). Așadar, tot ce face această metodă este să perturbe greutățile și să vadă care perturbații aduc rețeaua mai aproape de greutăți specifice sarcinii. E ca un Lora foarte ieftin
Acest lucru se leagă și de observația că post-antrenamentul nu adaugă cunoștințe, ci doar sculptează distribuția de pre-antrenament

13 mar., 23:41
Simpla adăugare a zgomotului Gaussian la LLM-uri (un singur pas—fără iterații, fără rată de învățare, fără gradiente) și asemănarea acestora poate obține performanțe comparabile sau chiar mai bune decât GRPO/PPO standard la sarcini de raționament matematic, programare, scriere și chimie. Numim acest algoritm RandOpt.
Pentru a verifica că acest lucru nu este limitat la modele specifice, am testat pe Qwen, Llama, OLMo3 și VLM-uri.
Ce se ascunde în spatele asta? Descoperim că în vecinătatea gaussiană de căutare în jurul LLM-urilor preantrenate, experții diverși în sarcini sunt distribuiți dens — un regim pe care îl numim Neural Thickets.
Hârtie:
Cod:
Site:

perturbarea greutăților este de fapt analogă cu rollout-urile aleatorii la temperaturi ridicate. Cred că poate fi iterativ (ca grpo).
perturbă greutățile cu rază mare -> selectează performanțe mai bune -> continuă să scadă raza
Acest lucru *ar trebui* să crească acuratețea sarcinilor
@yule_gan ai încercat asta?
42
Limită superioară
Clasament
Favorite
