Claude scrie cod, codex code review, GPT Pro pentru planificare au făcut un depozit DPO funcțional (și algoritmi asociați) de la zero pentru cartea mea RLHF, iar curbele arată corect. Pe DGX Spark Fintuning Olmo 2 1B SFT. Construit prin referința la depozitele originale + TRL