約2年半前、@_lewtunと@edwardbeechingたちと一緒に、DPOを正しく動かすのに数ヶ月かかった@huggingfaceを覚えています。 現在では、コーディングエージェントはゼロからリポジトリ全体を構築し、高品質な実装を参照しトレードオフを議論し、あなたのデスク上で代表的なトレーニングジョブを実行できます。これは数千サンプルを用いた1Bモデルでした。 AI研究や実験へのアクセス、そしてAIでの仕事の意味を大きく変えています。 私はこのPRを統合し、rlhfbookのコードリポジトリに多くの直接アライメントアルゴリズム(DPOなど)を追加しましたが、今では驚くほど簡単になりました。 この本がますます自信を持ってきました――モデルと実際に機能するものを直感的に掘り下げ、幻覚や誇大宣伝のない場所へと。学生は、AIモデルが午後に作成できるコードや実験に加えて、これを参考にすることができます。 最良の状態であれば、RLHFブックは人々がこの学習資料を議論し、反復し、コミュニティを作るための中心的な場となるでしょう。