🚨 DeepSeek acaba de hacer algo salvaje. Construyeron un modelo matemático que no solo resuelve problemas, sino que revisa sus propias demostraciones, se critica a sí mismo, corrige la lógica y lo intenta de nuevo hasta que no encuentra ni un solo fallo. Esa última parte es el avance, un modelo que puede verificar su propio razonamiento antes de que tú lo verifiques. Y los resultados son ridículos: • Rendimiento de nivel oro en la IMO 2025 • Rendimiento de nivel oro en CMO 2024 • 118/120 en Putnam 2024 casi perfecto, superando a todas las puntuaciones humanas • Supera a GPT-5 Thinking y Gemini 2.5 Pro en las categorías más difíciles Lo que hace que DeepSeek Math V2 sea loco no es la precisión, sino la arquitectura que hay detrás. No perseguían modelos más grandes ni una cadena de pensamiento más larga. Construyeron un ecosistema: ✓ un verificador dedicado que busca lagunas lógicas ✓ un meta-verificador que comprueba si el verificador está alucinando ✓ un generador de demostraciones que aprende a temer al razonamiento erróneo ✓ y un bucle de entrenamiento donde el modelo sigue generando pruebas más duras que obligan al verificador a evolucionar El ciclo es brutal: Genera → verifica → meta-verifica → corrige → repite. El problema central que resolvieron: la precisión de la respuesta final no significa nada en la demostración de teoremas. Puedes conseguir el número correcto con lógica basura. Así que entrenaron a un verificador para juzgar la prueba en sí, no la respuesta final. ...