Пам'ятаю ~2,5 роки тому, коли @_lewtun, @edwardbeeching та компанія в @huggingface, знадобилося кілька місяців, щоб DPO працював правильно. Сьогодні агенти з програмування можуть створити цілий репозиторій з нуля, посилаючись на якісні реалізації та обговорюючи компроміси, а також проводити роботу з навчання представників на вашому столі. Це була модель 1B на тисячах зразків. Це справді змінює доступність досліджень і експериментів у сфері ШІ, а також те, що означає працювати з ШІ. Я щойно об'єднав PR для цього, який додає багато алгоритмів прямого вирівнювання (DPO тощо) до репозиторію коду rlhfbook, і дивовижно, наскільки це стало простіше сьогодні. Я почуваюся ще впевненіше у тому, чим стає книга — густим місцем для інтуїцій щодо того, що справді працює з моделями, вільним від галюцинацій і хайпів. Учні можуть використовувати це як довідник поряд із кодом і експериментами, які моделі ШІ можуть розгорнути за один день. У найкращому випадку Книга RLHF стане центральним місцем для обговорення, ітерації та створення спільноти навколо цього навчального матеріалу.