Je me souviens qu'il y a environ 2,5 ans, avec @_lewtun et @edwardbeeching et d'autres chez @huggingface, combien de mois il a fallu pour que le DPO fonctionne correctement. Aujourd'hui, les agents de codage peuvent construire un dépôt entier à partir de zéro, en se référant à des implémentations de haute qualité et en discutant des compromis, et exécuter un travail d'entraînement représentatif sur votre bureau. C'était un modèle de 1 milliard sur des milliers d'échantillons. Cela change vraiment l'accessibilité à la recherche et à l'expérimentation en IA, ainsi que ce que cela signifie de travailler dans l'IA. Je viens de fusionner la PR pour cela qui ajoute un tas d'algorithmes d'alignement direct (DPO, etc.) au dépôt de code rlhfbook, et c'est remarquable à quel point c'est plus facile aujourd'hui. Je me sens encore plus confiant quant à ce que le livre devient -- un endroit dense pour des intuitions sur ce qui fonctionne réellement avec les modèles, exempt d'hallucinations et de hype. Les étudiants peuvent l'utiliser comme référence à côté du code et des expériences que les modèles d'IA peuvent générer en un après-midi. Au mieux, le RLHF Book deviendra un lieu central pour que les gens discutent, itèrent et créent une communauté autour de ce matériel d'apprentissage.