理論物理学研究におけるモデル利用において、同様のジェネレーター・検証器アプローチを採用しました。 科学の最前線にいる人間の専門家は、検証モデルを改良し、実際の研究問題(単なる人工的な数学コンテスト問題=人間が有限時間で解けるよく定められた問題ではなく)においても非常に強力なレベルまで進化させることができます。 ディープシークマスV2 ジェネレーターと検証器のシナジー 証明生成器と検証器は自己改善フィードバックループを形成します。生成器がますます複雑な証明を生成するにつれ、これらは検証者に挑戦し、弱点を露呈させ、それが新たな訓練データとなります。当初、人間の専門家が検証者のフラグ付けされた問題をレビューすることで再学習を導きました。これは証明ごとに複数回の検証試行を生成することで効率的でした。この「メタ検証」(証明ではなく検証者の発見を確認すること)は、人間にとっても容易であり、LLMにとっても学習しやすいものでした。 検証分析数を拡大し、これらのAI支援注釈を学習することで、検証者は最終的に人間の介入が不要な信頼性レベルに達し、自動証明生成と検証のループを閉じました。
steve hsu
steve hsu11月28日 01:26
ワウ!ディープシークマス-V2 また発電機-検証器アーキテクチャ! ...自己検証可能な数学的推論に向けて、定理証明のための正確かつ忠実なLLMベースの検証器をどのように訓練するかを探ります。その後、検証者を報酬モデルとして証明ジェネレーターを訓練し、ジェネレーターが自分の証明でできるだけ多くの問題を特定し解決してから最終化するよう促します。生成器が強化されるにつれて世代検証のギャップを維持するため、検証計算をスケールして新しい検証が難しい証明に自動的にラベル付けし、検証器をさらに改善するためのトレーニングデータを作成することを提案します。その結果生まれたモデルであるDeepSeekMath-V2は、強力な定理証明能力を示し、IMO 2025およびCMO 2024でゴールドレベルのスコアを獲得し、Putnam 2024ではほぼ完璧な118/120(スケーリングテストタイム計算)を得ました。まだ多くの研究が残っていますが、これらの結果は自己検証可能な数学的推論がより優れた数学的AIシステムの開発に役立つ可能性のある研究方向であることを示唆しています。
これは、既製品モデルを用いた基本的なジェネレーター・検証ツールパイプラインから、メタ検証に用いられる人間の専門家によるトレーニングデータによって検証器自体が改良されるものへの移行を示しています。
1.96K