Akhirnya, makalah akhir PhD saya 🧮 Belajar Bernalar dalam 13 Parameter 🧮 kami mengembangkan TinyLoRA, metode ft baru. dengan TinyLoRA + RL, model belajar dengan baik dengan lusinan atau ratusan parameter contoh: kami hanya menggunakan 13 parameter untuk melatih model Qwen 7B dari 76 hingga 91% pada GSM8K 🤯
ada makalah yang saya suka dari tahun 2018 berjudul Playing Atari with Six Neurons. itu memberi preseden bahwa RL dapat mempelajari beberapa "program" yang membutuhkan sangat sedikit byte namun penyempurnaan terkecil yang biasanya dilakukan orang akhir-akhir ini adalah LoRA dengan peringkat=1, yang masih menggunakan jutaan parameter... 🤔
cara kami sampai di sini adalah memikirkan ukuran "program" apa yang dapat mengajarkan LLaMA atau Qwen untuk bernalar. 3 juta parameter di bf16 membutuhkan waktu 6 MB. ini sepertinya terlalu besar? teori kami: jika setiap episode RL mentransmisikan kira-kira 1 bit, kita harus dapat mengkodekan misalnya GSM8K dalam data yang jauh lebih sedikit...
dan perhatikan bahwa ini *tidak* berfungsi dengan SFT. pada dasarnya untuk sepenuhnya meminimalkan kerugian dengan SFT, Anda harus menghafal semua token keluaran dengan kepercayaan diri 100%. Ini membutuhkan lebih banyak bagian dan akibatnya, kita membutuhkan ukuran pembaruan yang lebih besar untuk model SFT untuk kinerja yang baik: (lebih lanjut tentang ini di Bagian 3)
ini bukan hanya artefak GSM8K atau model tertentu pada semua kumpulan data yang kami coba (MATH, AIME, Minerva...), kami dapat memulihkan >90% peningkatan kinerja dengan melatih ratusan parameter (kecuali AMC, yang terkadang membutuhkan ribuan)
salah satu detail teknik yang menyenangkan adalah sangat sulit untuk melakukan RL dengan bentuk LoRA yang berbeda, karena LLM RL membutuhkan inferensi cepat, yang membutuhkan implementasi tingkat perangkat keras (kernel) saya menyiasatinya dengan hanya menggabungkan bobot LoRA pada setiap peluncuran dan kemudian melepaskannya untuk pelatihan. sebenarnya tidak selambat itu. Ada beberapa detail lebih lanjut di makalah dan akan segera membagikan kode
96