DeepSeekは、すべての推論モデルが装い込んでいたようなアップグレードを成功させました。 長い思考の連鎖を吐き出して意味が通ることを願う代わりに、DeepSeek Math V2は独自の論理で完全な問いかけを行います。証明を作り、攻撃し、攻撃をチェックし、チェッカーをチェックし、欠陥を修正し、ループして自分を壊せなくなるまで繰り返します。 その一つのアイデアがその性能を完全に変えました。 そのレベルの自己検証がもたらした結果は以下の通りです。 ・IMO 2025におけるゴールドレベルのパフォーマンス • CMO 2024におけるゴールドレベルのパフォーマンス • プットナム2024での最高得点は118/120でした • GPT-5 ThinkingやGemini 2.5 Proよりも難しいカテゴリでより良い結果を出す 秘密はスケールではありません。 モデルの周囲のアーキテクチャです: — 論理的なギャップを探す検証器 — 検証者に疑問を投げかけるメタ検証者 — 弱い推論を避けるように条件付けられた証明生成元である — システムのあらゆる部分をより鋭くさせるループ このプロセスはグラインダーのように進みます: - 証明を作成する - テストしてみて - テスターのテスト - 推論の修正 -繰り返す 彼らは数学的推論の本質的な問題、すなわちモデルが間違った理由で正しい答えに到達することがあるという点に目を向けていました。つまり、DeepSeekは結果ではなく推論を評価する検証者を訓練したのです。...