Ich erinnere mich, dass es vor etwa 2,5 Jahren mit @_lewtun und @edwardbeeching und Co. bei @huggingface Monate gedauert hat, um DPO richtig zum Laufen zu bringen. Heute können Programmieragenten ein ganzes Repository von Grund auf neu erstellen, hochwertige Implementierungen referenzieren und Kompromisse diskutieren sowie einen repräsentativen Trainingsjob auf Ihrem Schreibtisch ausführen. Dies war ein 1B-Modell mit Tausenden von Proben. Es verändert wirklich die Zugänglichkeit zur KI-Forschung und zum Experimentieren, sowie was es bedeutet, in der KI zu arbeiten. Ich habe gerade den PR dafür zusammengeführt, der eine Reihe von direkten Ausrichtungsalgorithmen (DPO usw.) zum rlhfbook-Code-Repo hinzufügt, und es ist bemerkenswert, wie viel einfacher das heute ist. Ich fühle mich noch sicherer, was das Buch wird – ein dichter Ort für Intuitionen darüber, was tatsächlich mit Modellen funktioniert, frei von Halluzinationen und Hypes. Studenten können dies als Referenz neben dem Code und den Experimenten verwenden, die die KI-Modelle an einem Nachmittag erstellen können. Im besten Fall wird das RLHF-Buch ein zentraler Ort für Menschen werden, um zu diskutieren, zu iterieren und eine Gemeinschaft um dieses Lernmaterial zu bilden.