Claude Code writing, Codex Code Review och GPT Pro for planning har skapat ett fungerande DPO- (och relaterade algoritmer) arkiv från grunden för min RLHF-bok, och kurvorna ser rätt ut. På DGX Spark finetuning olmo 2 1b SF. Byggd genom att referera till de ursprungliga arkiven + TRL