Saya ingat ~ 2,5 tahun yang lalu, dengan @_lewtun dan @edwardbeeching dan rekan-rekannya di @huggingface bagaimana butuh waktu berbulan-bulan untuk membuat DPO bekerja dengan benar. Saat ini, agen pengkodean dapat membangun seluruh repositori dari awal, mereferensikan implementasi berkualitas tinggi dan mendiskusikan trade-off, dan menjalankan pekerjaan pelatihan yang representatif di meja Anda. Ini adalah model 1B pada ribuan sampel. Ini benar-benar mengubah aksesibilitas ke penelitian dan mengutak-atik AI, bersama dengan apa artinya bekerja di AI. Saya baru saja menggabungkan PR untuk ini yang menambahkan banyak algoritma penyelarasan langsung (DPO dll) ke repo kode rlhfbook, dan luar biasa betapa mudahnya ini hari ini. Saya merasa lebih percaya diri tentang apa yang menjadi buku ini - tempat yang padat untuk intuisi untuk apa yang benar-benar bekerja dengan model, bebas dari halusinasi dan hype. Siswa dapat menggunakan ini sebagai referensi selain kode dan eksperimen yang dapat diputar oleh model AI di sore hari. Yang terbaik, Buku RLHF akan menjadi tempat sentral bagi orang-orang untuk berdiskusi, mengulang, dan membuat komunitas di sekitar materi pembelajaran ini.