Pamiętam, że około 2,5 roku temu, z @_lewtun i @edwardbeeching oraz ekipą z @huggingface, zajęło to miesiące, aby DPO działało poprawnie. Dziś agenci kodujący mogą zbudować cały repozytorium od podstaw, odwołując się do wysokiej jakości implementacji i omawiając kompromisy, a także uruchomić reprezentatywne zadanie treningowe na swoim biurku. To był model 1B na tysiącach próbek. To naprawdę zmienia dostępność badań nad AI i eksperymentowania, a także to, co oznacza praca w AI. Właśnie połączyłem PR, który dodaje szereg algorytmów bezpośredniego dostosowania (DPO itd.) do repozytorium kodu rlhfbook, i to niesamowite, jak dużo łatwiej jest to dzisiaj. Czuję się jeszcze bardziej pewny tego, czym staje się ta książka - gęstym miejscem dla intuicji dotyczących tego, co naprawdę działa z modelami, wolnym od halucynacji i hype'ów. Studenci mogą używać tego jako odniesienia obok kodu i eksperymentów, które modele AI mogą uruchomić w ciągu popołudnia. W najlepszym wydaniu, Książka RLHF stanie się centralnym miejscem dla ludzi do dyskusji, iteracji i budowania społeczności wokół tego materiału edukacyjnego.