écriture de code claude, révision de code codex, GPT Pro pour la planification a créé un dépôt DPO fonctionnel (et des algorithmes associés) à partir de zéro pour mon livre RLHF, et les courbes semblent correctes. Sur le finetuning dgx spark olmo 2 1b sft. Construit en se référant aux dépôts originaux + TRL