Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cara menafsirkannya adalah bahwa setelah pasca pelatihan, beban Anda agak sama jauh dari semua tugas yang dilihatnya selama prapelatihan (model telah melihat semua tugas sehingga mereka menariknya ke arah mereka). Jadi semua yang dilakukan metode ini adalah mengganggu bobot dan melihat gangguan mana yang membawa jaringan lebih dekat ke bobot khusus tugas. Ini seperti Lora yang sangat murah
Ini juga terhubung dengan pengamatan bahwa pasca-pelatihan tidak menambah pengetahuan, tetapi hanya memahat distribusi pra-pelatihan

13 Mar, 23.41
Cukup menambahkan noise Gaussian ke LLM (satu langkah—tanpa iterasi, tidak ada tingkat pembelajaran, tidak ada gradien) dan memasangnya dapat mencapai kinerja yang sebanding atau bahkan lebih baik daripada GRPO/PPO standar pada tugas penalaran matematika, pengkodean, penulisan, dan kimia. Kami menyebut algoritma ini RandOpt.
Untuk memverifikasi bahwa ini tidak terbatas pada model tertentu, kami mengujinya pada Qwen, Llama, OLMo3, dan VLM.
Apa yang ada di balik ini? Kami menemukan bahwa di lingkungan pencarian Gaussian di sekitar LLM yang telah dilatih sebelumnya, beragam ahli tugas tersebar padat - rezim yang kami sebut Neural Thickets.
Kertas:
Kode:
Situs web:

bobot yang mengganggu benar-benar analog dengan peluncuran acak dalam suhu tinggi. Saya pikir ini bisa berulang (seperti GRPO)
Perturb bobot dengan radius besar -> memilih kinerja yang lebih baik -> terus mengurangi radius
Ini *seharusnya* meningkatkan akurasi tugas
@yule_gan Anda mencoba ini?
35
Teratas
Peringkat
Favorit
