Claude Code-Schreiben, Codex Code-Überprüfung, GPT Pro für die Planung hat ein funktionierendes DPO (und verwandte Algorithmen) Repository von Grund auf für mein RLHF-Buch erstellt, und die Kurven sehen gut aus. Auf dem DGX Spark Finetuning Olmo 2 1B SFT. Erstellt durch Referenzierung der ursprünglichen Repositories + TRL