pisanie kodu claude, przegląd kodu codex, GPT Pro do planowania stworzył działające repozytorium DPO (i powiązanych algorytmów) od podstaw do mojej książki o RLHF, a krzywe wyglądają dobrze. Na dgx spark finetuning olmo 2 1b sft. Zbudowane na podstawie oryginalnych repozytoriów + TRL