Lembro-me de há cerca de 2,5 anos, com @_lewtun e @edwardbeeching e companhia na @huggingface, como levou meses para fazer o DPO funcionar corretamente. Hoje, agentes de codificação podem construir um repositório inteiro do zero, referenciando implementações de alta qualidade e discutindo trade-offs, e executar um trabalho de treinamento representativo na sua mesa. Este foi um modelo de 1B em milhares de amostras. Isso realmente muda a acessibilidade à pesquisa em IA e à experimentação, juntamente com o que significa trabalhar em IA. Acabei de mesclar o PR para isso, que adiciona um monte de algoritmos de alinhamento direto (DPO etc.) ao repositório de código do rlhfbook, e é notável como isso é muito mais fácil hoje. Estou me sentindo ainda mais confiante sobre o que o livro está se tornando -- um lugar denso para intuições sobre o que realmente funciona com modelos, livre de alucinações e exageros. Os alunos podem usar isso como referência ao lado do código e dos experimentos que os modelos de IA podem gerar em uma tarde. No seu melhor, o RLHF Book se tornará um lugar central para as pessoas discutirem, iterarem e criarem comunidade em torno deste material de aprendizagem.