escrita de código claude, revisão de código codex, GPT Pro para planejamento fez um repositório de DPO (e algoritmos relacionados) a partir do zero para o meu livro de RLHF, e as curvas estão parecendo boas. No ajuste fino dgx spark olmo 2 1b sft. Construído referenciando os repositórios originais + TRL