ワウ!ディープシークマス-V2 また発電機-検証器アーキテクチャ! ...自己検証可能な数学的推論に向けて、定理証明のための正確かつ忠実なLLMベースの検証器をどのように訓練するかを探ります。その後、検証者を報酬モデルとして証明ジェネレーターを訓練し、ジェネレーターが自分の証明でできるだけ多くの問題を特定し解決してから最終化するよう促します。生成器が強化されるにつれて世代検証のギャップを維持するため、検証計算をスケールして新しい検証が難しい証明に自動的にラベル付けし、検証器をさらに改善するためのトレーニングデータを作成することを提案します。その結果生まれたモデルであるDeepSeekMath-V2は、強力な定理証明能力を示し、IMO 2025およびCMO 2024でゴールドレベルのスコアを獲得し、Putnam 2024ではほぼ完璧な118/120(スケーリングテストタイム計算)を得ました。まだ多くの研究が残っていますが、これらの結果は自己検証可能な数学的推論がより優れた数学的AIシステムの開発に役立つ可能性のある研究方向であることを示唆しています。