热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚨 DeepSeek 刚刚做了一件疯狂的事情。
他们构建了一个数学模型,不仅能解决问题,还能检查自己的证明,自我批评,修正逻辑,并不断尝试,直到找不到任何缺陷。
最后这一部分是突破:一个可以在你验证之前验证自己推理的模型。
结果简直令人难以置信:
• IMO 2025 金奖水平表现
• CMO 2024 金奖水平表现
• Putnam 2024 118/120,近乎完美,超越每一个人类得分
• 在最难的类别中超越 GPT-5 Thinking 和 Gemini 2.5 Pro
DeepSeek Math V2 疯狂的地方不是准确性,而是其背后的架构。
他们没有追求更大的模型或更长的思维链。
他们构建了一个生态系统:
✓ 一个专门的验证器,寻找逻辑漏洞
✓ 一个元验证器,检查验证器是否在幻觉
✓ 一个证明生成器,学会害怕糟糕的推理
✓ 以及一个训练循环,模型不断生成更难的证明,迫使验证器进化
这个循环是残酷的:
生成 → 验证 → 元验证 → 修正 → 重复。
他们解决的核心问题是:最终答案的准确性在定理证明中毫无意义。你可以用糟糕的逻辑得到正确的数字。因此,他们训练了一个验证器来判断证明本身,而不是最终答案。
...

热门
排行
收藏

