claude code schrijven, codex code review, GPT Pro voor planning heeft een werkende DPO (en gerelateerde algoritmen) repository vanaf nul gemaakt voor mijn RLHF boek, en de curves zien er goed uit. Op de dgx spark finetuning olmo 2 1b sft. Gebouwd door te verwijzen naar de originele repositories + TRL