熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我採用了類似的生成器-驗證器方法來使用模型於理論物理研究中。
處於科學前沿的人類專家可以改進驗證器模型,使其在現實世界的研究問題上(不僅僅是捏造的數學競賽問題 = 可以在有限時間內由人類解決的良好定義問題)實現極強的自主運作。
DeepSeekMathV2
生成器與驗證器之間的協同作用
證明生成器和驗證器形成了一個自我改進的反饋循環。隨著生成器產生越來越複雜的證明,這些證明挑戰驗證器,暴露出弱點,這些弱點成為新的訓練數據。最初,人類專家通過審查驗證器標記的問題來指導驗證器的再訓練——這一過程通過為每個證明生成多個驗證嘗試而變得高效。這種“元驗證”(檢查驗證器的發現而不是直接檢查證明)對人類來說更容易,對大型語言模型(LLMs)來說也更具可學習性。
通過擴大驗證器分析的數量並在這些AI輔助的註釋上進行訓練,驗證器最終達到了不再需要人類干預的可靠性水平——關閉了自動證明生成和驗證之間的循環。

11月28日 01:26
哇!DeepSeekMath-V2
再次採用生成器-驗證器架構!
... 為了實現自我驗證的數學推理,我們研究如何訓練一個準確且忠實的基於 LLM 的驗證器來進行定理證明。然後,我們使用驗證器作為獎勵模型來訓練證明生成器,並激勵生成器在最終確定證明之前,識別並解決盡可能多的問題。為了在生成器變得更強大時保持生成-驗證差距,我們建議擴展驗證計算,以自動標記新的難以驗證的證明,創建訓練數據以進一步改善驗證器。我們的模型 DeepSeekMath-V2 展示了強大的定理證明能力,在 IMO 2025 和 CMO 2024 中達到了金級分數,在 Putnam 2024 中以擴展的測試時間計算獲得了近乎完美的 118/120。雖然還有很多工作要做,但這些結果表明,自我驗證的數學推理是一個可行的研究方向,可能有助於開發更強大的數學 AI 系統。

這描述了從使用現成模型的基本生成器-驗證器管道過渡到驗證器本身通過人類專家訓練數據進行元驗證的改進。

1.41K
熱門
排行
收藏
