DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Modul de interpretare este că după post-antrenament greutățile tale sunt oarecum echidistante față de toate sarcinile pe care le-a văzut în timpul pre-antrenamentului (modelul a văzut toate sarcinile, deci le-a tras spre el). Așadar, tot ce face această metodă este să perturbe greutățile și să vadă care perturbații aduc rețeaua mai aproape de greutăți specifice sarcinii. E ca un Lora foarte ieftin Acest lucru se leagă și de observația că post-antrenamentul nu adaugă cunoștințe, ci doar sculptează distribuția de pre-antrenament

perturbarea greutăților este de fapt analogă cu rollout-urile aleatorii la temperaturi ridicate. Cred că poate fi iterativ (ca grpo). perturbă greutățile cu rază mare -> selectează performanțe mai bune -> continuă să scadă raza Acest lucru *ar trebui* să crească acuratețea sarcinilor @yule_gan ai încercat asta?

42

Limită superioară

Clasament

Favorite