熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek 剛剛實現了每個推理模型一直假裝擁有的那種升級。
DeepSeek Math V2 不再只是輸出一長串思考過程並希望它有意義,而是對自己的邏輯進行全面的審查。它建立證明,攻擊它,檢查攻擊,檢查檢查者,修補缺陷,並不斷循環,直到無法再自我破壞。
這個單一的想法徹底改變了它的性能。
這種自我審查的水平產生了以下結果:
• IMO 2025 的金級表現
• CMO 2024 的金級表現
• Putnam 2024 的 118/120,報告的最高分
• 在最困難的類別中,表現優於 GPT-5 Thinking 和 Gemini 2.5 Pro
秘密不在於規模。
而在於模型周圍的架構:
— 一個尋找邏輯漏洞的驗證器
— 一個質疑驗證器的元驗證器
— 一個避免弱推理的證明生成器
— 一個迫使系統每個部分變得更敏銳的循環
這個過程像磨床一樣運行:
- 產生證明
- 測試它
- 測試測試者
- 修復推理
- 重複
他們針對數學推理中的真正問題:模型可能因錯誤的原因而得到正確的答案。因此 DeepSeek 訓練了一個評分推理而非結果的驗證器。...

熱門
排行
收藏

