哇!DeepSeekMath-V2 再次採用生成器-驗證器架構! ... 為了實現自我驗證的數學推理,我們研究如何訓練一個準確且忠實的基於 LLM 的驗證器來進行定理證明。然後,我們使用驗證器作為獎勵模型來訓練證明生成器,並激勵生成器在最終確定證明之前,識別並解決盡可能多的問題。為了在生成器變得更強大時保持生成-驗證差距,我們建議擴展驗證計算,以自動標記新的難以驗證的證明,創建訓練數據以進一步改善驗證器。我們的模型 DeepSeekMath-V2 展示了強大的定理證明能力,在 IMO 2025 和 CMO 2024 中達到了金級分數,在 Putnam 2024 中以擴展的測試時間計算獲得了近乎完美的 118/120。雖然還有很多工作要做,但這些結果表明,自我驗證的數學推理是一個可行的研究方向,可能有助於開發更強大的數學 AI 系統。