Modul de interpretare este că după post-antrenament greutățile tale sunt oarecum echidistante față de toate sarcinile pe care le-a văzut în timpul pre-antrenamentului (modelul a văzut toate sarcinile, deci le-a tras spre el). Așadar, tot ce face această metodă este să perturbe greutățile și să vadă care perturbații aduc rețeaua mai aproape de greutăți specifice sarcinii. E ca un Lora foarte ieftin Acest lucru se leagă și de observația că post-antrenamentul nu adaugă cunoștințe, ci doar sculptează distribuția de pre-antrenament
Yulu Gan
Yulu Gan13 mar., 23:41
Simpla adăugare a zgomotului Gaussian la LLM-uri (un singur pas—fără iterații, fără rată de învățare, fără gradiente) și asemănarea acestora poate obține performanțe comparabile sau chiar mai bune decât GRPO/PPO standard la sarcini de raționament matematic, programare, scriere și chimie. Numim acest algoritm RandOpt. Pentru a verifica că acest lucru nu este limitat la modele specifice, am testat pe Qwen, Llama, OLMo3 și VLM-uri. Ce se ascunde în spatele asta? Descoperim că în vecinătatea gaussiană de căutare în jurul LLM-urilor preantrenate, experții diverși în sarcini sunt distribuiți dens — un regim pe care îl numim Neural Thickets. Hârtie: Cod: Site:
perturbarea greutăților este de fapt analogă cu rollout-urile aleatorii la temperaturi ridicate. Cred că poate fi iterativ (ca grpo). perturbă greutățile cu rază mare -> selectează performanțe mai bune -> continuă să scadă raza Acest lucru *ar trebui* să crească acuratețea sarcinilor @yule_gan ai încercat asta?
42