Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ini sangat keren.
Itu membuat saya berpikir lebih dalam tentang RL yang dipersonalisasi: apa gunanya mempersonalisasi model di dunia di mana model dasar dapat menjadi usang begitu cepat?
Kenyataan dalam AI adalah bahwa model baru dikirimkan setiap beberapa minggu, masing-masing lebih baik dari yang terakhir. Dan kecepatannya hanya berakselerasi, seperti yang kita lihat di Hugging Face Hub. Kami tidak jauh dari model dasar yang lebih baik yang turun setiap hari.
Ada kesenjangan penelitian di RL di sini yang hampir tidak ada yang mengerjakan. Sebagian besar penelitian personalisasi LLM mengasumsikan model dasar tetap, tetapi sangat sedikit yang bertanya apa yang terjadi pada personalisasi itu ketika Anda menukar model dasar. Pikirkan untuk beralih dari Llama 3 ke Llama 4. Semua preferensi yang disetel, sinyal hadiah, dan LoRA tiba-tiba terikat dengan model kemarin.
Sebagai pengguna atau tim, Anda tidak ingin mengajarkan kembali preferensi Anda kepada setiap model baru. Tetapi Anda juga tidak ingin terjebak pada yang lebih tua hanya karena mengenal Anda.
Kita bisa menyebutnya "transferabilitas model RL": bagaimana pelacakan RL, sinyal hadiah, atau representasi preferensi yang dilatih pada model N dapat disuling, disimpan, dan secara otomatis diterapkan kembali ke model N+1 tanpa terlalu banyak keterlibatan pengguna? Kami menyelesaikannya di SFT di mana kumpulan data pelatihan dapat disimpan dan digunakan kembali untuk melatih model masa depan. Kami juga menangani versi itu dalam fase RLHF entah bagaimana tetapi tetap tidak jelas secara umum ketika menggunakan RL yang digunakan di dunia nyata.
Ada beberapa utas terkait (RLTR untuk jejak penalaran yang dapat ditransfer, P-RLHF dan PREMIUM untuk representasi pengguna agnostik model, HCP untuk protokol preferensi portabel) tetapi loop penuh tampaknya kurang dipelajari bagi saya.
Beberapa pertanyaan ini adalah tentang off-policy tetapi yang lainnya adalah tentang kemampuan versus personalisasi: manakah dari penyesuaian/perbaikan lama yang sudah ditangani oleh model baru di luar kotak, dan mana yang benar-benar khusus pengguna/tim untuk diselesaikan secara default? Bahwa Anda akan menyimpan dalam keterampilan untuk saat ini tetapi RL memungkinkan untuk melampaui tingkat panduan tertulis.
Saya pasti melewatkan beberapa pekerjaan, jadi silakan posting karya bagus apa pun yang Anda lihat tentang topik ini di komentar.
Teratas
Peringkat
Favorit
