DeepSeek только что осуществил такое обновление, о котором каждый модель рассуждения только и мечтал. Вместо того чтобы выдавать длинную цепочку размышлений и надеяться, что это имеет смысл, DeepSeek Math V2 проводит полное расследование своей логики. Он строит доказательство, атакует его, проверяет атаку, проверяет проверяющего, исправляет недостатки и повторяет процесс, пока не сможет сломать себя больше. Эта единственная идея полностью изменила его производительность. Вот что произвело такое самоанализ: • Золотой уровень производительности на IMO 2025 • Золотой уровень производительности на CMO 2024 • 118/120 на Putnam 2024 — самый высокий зарегистрированный балл • Лучшие результаты, чем у GPT-5 Thinking и Gemini 2.5 Pro в самых сложных категориях Секрет не в масштабе. Он в архитектуре вокруг модели: — проверяющий, который ищет логические пробелы — мета-проверяющий, который ставит под сомнение проверяющего — генератор доказательств, настроенный на избежание слабого рассуждения — цикл, который заставляет каждую часть системы становиться острее Процесс работает как шлифовальный станок: - Создать доказательство - Протестировать его - Протестировать тестировщика - Исправить рассуждение - Повторить Они нацелились на настоящую проблему в математическом рассуждении: модель может получить правильный ответ по неправильным причинам. Поэтому DeepSeek обучил проверяющего, который оценивает рассуждение, а не результаты....