Claude Code Writing、Codex Code Review、GPT Proで計画用に、RLHFの本用にDPO(および関連アルゴリズム)リポジトリを一から作り上げ、曲線も整っています。 DGXのスパーク微調整でOlmo 2 1b sftを使います。元のリポジトリを参照して構築 + TRL