Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Akhirnya, makalah akhir PhD saya
🧮 Belajar Bernalar dalam 13 Parameter 🧮
kami mengembangkan TinyLoRA, metode ft baru. dengan TinyLoRA + RL, model belajar dengan baik dengan lusinan atau ratusan parameter
contoh: kami hanya menggunakan 13 parameter untuk melatih model Qwen 7B dari 76 hingga 91% pada GSM8K 🤯

ada makalah yang saya suka dari tahun 2018 berjudul Playing Atari with Six Neurons. itu memberi preseden bahwa RL dapat mempelajari beberapa "program" yang membutuhkan sangat sedikit byte
namun penyempurnaan terkecil yang biasanya dilakukan orang akhir-akhir ini adalah LoRA dengan peringkat=1, yang masih menggunakan jutaan parameter... 🤔
cara kami sampai di sini adalah memikirkan ukuran "program" apa yang dapat mengajarkan LLaMA atau Qwen untuk bernalar. 3 juta parameter di bf16 membutuhkan waktu 6 MB. ini sepertinya terlalu besar?
teori kami: jika setiap episode RL mentransmisikan kira-kira 1 bit, kita harus dapat mengkodekan misalnya GSM8K dalam data yang jauh lebih sedikit...

dan perhatikan bahwa ini *tidak* berfungsi dengan SFT. pada dasarnya untuk sepenuhnya meminimalkan kerugian dengan SFT, Anda harus menghafal semua token keluaran dengan kepercayaan diri 100%. Ini membutuhkan lebih banyak bagian
dan akibatnya, kita membutuhkan ukuran pembaruan yang lebih besar untuk model SFT untuk kinerja yang baik:
(lebih lanjut tentang ini di Bagian 3)

ini bukan hanya artefak GSM8K atau model tertentu
pada semua kumpulan data yang kami coba (MATH, AIME, Minerva...), kami dapat memulihkan >90% peningkatan kinerja dengan melatih ratusan parameter (kecuali AMC, yang terkadang membutuhkan ribuan)

salah satu detail teknik yang menyenangkan adalah sangat sulit untuk melakukan RL dengan bentuk LoRA yang berbeda, karena LLM RL membutuhkan inferensi cepat, yang membutuhkan implementasi tingkat perangkat keras (kernel)
saya menyiasatinya dengan hanya menggabungkan bobot LoRA pada setiap peluncuran dan kemudian melepaskannya untuk pelatihan. sebenarnya tidak selambat itu. Ada beberapa detail lebih lanjut di makalah dan akan segera membagikan kode
96
Teratas
Peringkat
Favorit
