написание кода claude, обзор кода codex, GPT Pro для планирования создал рабочий репозиторий DPO (и связанные алгоритмы) с нуля для моей книги по RLHF, и кривые выглядят правильно. На dgx spark дообучение olmo 2 1b sft. Построено с учетом оригинальных репозиториев + TRL