Claude Code Writing, Codex Review Code, GPT Pro для планування створив робочий репозиторій DPO (та пов'язані алгоритми) з нуля для своєї книги з RLHF, і криві виглядають правильно. На DGX Spark finetuning Olmo 2 1B sft. Створено з посиланням на оригінальні репозиторії + TRL