أتذكر ~2.5 سنة قبل @huggingface مع @_lewtun @edwardbeeching وشركاه كيف استغرق الأمر شهورا لجعل DPO يعمل بشكل صحيح. اليوم، يمكن لوكلاء البرمجة بناء مستودع كامل من الصفر، مع الإشارة إلى تطبيقات عالية الجودة ومناقشة المقايضات، وإدارة مهمة تدريب تمثيلية على مكتبك. كان هذا نموذج 1B على آلاف العينات. هذا يغير حقا إمكانية الوصول إلى أبحاث الذكاء الاصطناعي والتلاعب، إلى جانب معنى العمل في مجال الذكاء الاصطناعي. لقد دمجت للتو PR لهذا الذي يضيف مجموعة من خوارزميات المحاذاة المباشرة (DPO وغيرها) إلى مستودع كود rlhfbook، ومن المدهش كم أصبح الأمر أسهل اليوم. أشعر بثقة أكبر فيما أصبح عليه الكتاب — مكان كثيف للحدس حول ما يعمل فعليا مع النماذج، خال من الهلوسات والدعاية. يمكن للطلاب استخدام هذا كمرجع إلى جانب الكود والتجارب التي يمكن لنماذج الذكاء الاصطناعي تنفيذها في فترة بعد الظهر. في أفضل حالاته، سيصبح كتاب RLHF مكانا مركزيا للناس للنقاش والتكرار وتكوين مجتمع حول هذا الموضوع التعليمي.