熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚨 DeepSeek 剛剛做了一件瘋狂的事。
他們建立了一個數學模型,不僅能解決問題,還能檢查自己的證明,自我批評,修正邏輯,並不斷嘗試,直到找不到任何缺陷。
最後這一部分是突破性的一步,這是一個能在你驗證之前就能驗證自己推理的模型。
而結果是驚人的:
• 在 IMO 2025 上達到金級表現
• 在 CMO 2024 上達到金級表現
• 在 Putnam 2024 上獲得 118/120 的近乎完美成績,超越每一個人類分數
• 在最困難的類別中超越 GPT-5 Thinking 和 Gemini 2.5 Pro
使 DeepSeek Math V2 瘋狂的不是準確性,而是其背後的架構。
他們並沒有追求更大的模型或更長的思考鏈。
他們建立了一個生態系統:
✓ 一個專門的驗證器,尋找邏輯漏洞
✓ 一個元驗證器,檢查驗證器是否在幻覺
✓ 一個證明生成器,學會害怕糟糕的推理
✓ 還有一個訓練循環,模型不斷生成更難的證明,迫使驗證器進化
這個循環是殘酷的:
生成 → 驗證 → 元驗證 → 修正 → 重複。
他們解決的核心問題是:最終答案的準確性在定理證明中毫無意義。你可以用糟糕的邏輯得到正確的數字。因此,他們訓練了一個驗證器來評判證明本身,而不是最終答案。
...

熱門
排行
收藏

