escritura de código de claude, revisión de código de codex, GPT Pro para la planificación hizo un repositorio de DPO (y algoritmos relacionados) desde cero para mi libro de RLHF, y las curvas se ven bien. En el ajuste fino dgx spark olmo 2 1b sft. Construido haciendo referencia a los repositorios originales + TRL