Я помню, примерно 2.5 года назад, с @_lewtun и @edwardbeeching и командой в @huggingface, как нам потребовались месяцы, чтобы правильно настроить DPO. Сегодня кодирующие агенты могут создать целый репозиторий с нуля, ссылаясь на высококачественные реализации и обсуждая компромиссы, и запустить представительную тренировочную задачу у себя на столе. Это была модель на 1 миллиард на тысячах образцов. Это действительно меняет доступность исследований в области ИИ и экспериментов, а также то, что значит работать в ИИ. Я только что объединил PR для этого, который добавляет множество прямых алгоритмов выравнивания (DPO и т.д.) в кодовый репозиторий rlhfbook, и это удивительно, насколько легче это стало сегодня. Я чувствую себя еще более уверенно в том, чем становится книга — плотным местом для интуиций о том, что действительно работает с моделями, свободным от галлюцинаций и хайпов. Студенты могут использовать это как справочник наряду с кодом и экспериментами, которые ИИ модели могут запустить за одно послеобеденное время. В лучшем случае, книга RLHF станет центральным местом для людей, чтобы обсуждать, итеративно работать и создавать сообщество вокруг этого учебного материала.