~2,5 yıl önce, @_lewtun, @edwardbeeching ve daha yakın @huggingface ile DPO'nun doğru şekilde çalışmasının aylar sürdüğünü hatırlıyorum. Bugün, kodlama ajanları sıfırdan tüm bir depo oluşturabiliyor, yüksek kaliteli uygulamalara referans verebilir ve tavizleri tartışabilir ve masanızda temsilci bir eğitim işi yürütebilir. Bu, binlerce örnekte bulunan bir 1B modeliydi. Bu, yapay zeka araştırmalarına ve kurcalamalarına erişimi ve yapay zeka çalışmanın ne anlama geldiğini gerçekten değiştiriyor. Bunun için PR'ı birleştirdim, bu da rlhfbook kod deposuna bir sürü doğrudan hizalama algoritması (DPO vb.) ekliyor ve bugün bunun ne kadar kolay olması şaşırtıcı. Kitabın ne hale geleceği konusunda daha da kendimi daha da kendimi güvenliyorum — modellerle gerçekten neyin işe yaradığına dair yoğun bir sezgi alanı, halüsinasyonlar ve abartılardan arınmış. Öğrenciler, bunu kod ve yapay zeka modellerinin öğleden sonra başlatabileceği deneylerin yanında bir referans olarak kullanabilir. En iyi halinde, RLHF Kitabı insanların bu öğrenme materyali etrafında tartışmak, yineleme yapmak ve topluluk kurmak için merkezi bir yer haline gelecek.