Claude Code Writing, Code Review a GPT Pro pro plánování vytvořil funkční DPO (a související algoritmy) repozitář od nuly pro mou knihu o RLHF a křivky vypadají správně. Na DGX Spark Fine-tuning Olmo 2 1b SFT. Vytvořeno s odkazem na původní repozitáře + TRL