DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Cara menafsirkannya adalah bahwa setelah pasca pelatihan, beban Anda agak sama jauh dari semua tugas yang dilihatnya selama prapelatihan (model telah melihat semua tugas sehingga mereka menariknya ke arah mereka). Jadi semua yang dilakukan metode ini adalah mengganggu bobot dan melihat gangguan mana yang membawa jaringan lebih dekat ke bobot khusus tugas. Ini seperti Lora yang sangat murah Ini juga terhubung dengan pengamatan bahwa pasca-pelatihan tidak menambah pengetahuan, tetapi hanya memahat distribusi pra-pelatihan

bobot yang mengganggu benar-benar analog dengan peluncuran acak dalam suhu tinggi. Saya pikir ini bisa berulang (seperti GRPO) Perturb bobot dengan radius besar -> memilih kinerja yang lebih baik -> terus mengurangi radius Ini *seharusnya* meningkatkan akurasi tugas @yule_gan Anda mencoba ini?

35

Teratas

Peringkat

Favorit