DeepSeek acaba de realizar el tipo de actualización que todos los modelos de razonamiento han estado pretendiendo tener. En lugar de soltar una larga cadena de pensamientos y esperar que tenga sentido, DeepSeek Math V2 realiza una interrogación completa sobre su propia lógica. Construye una prueba, la ataca, verifica el ataque, verifica al verificador, corrige los fallos y repite el proceso hasta que no puede romperse más. Esa única idea cambió completamente su rendimiento. Esto es lo que ese nivel de autoexamen produjo: • Rendimiento de nivel oro en IMO 2025 • Rendimiento de nivel oro en CMO 2024 • 118/120 en Putnam 2024, la puntuación más alta reportada • Mejores resultados que GPT-5 Thinking y Gemini 2.5 Pro en las categorías más difíciles El secreto no es la escala. Es la arquitectura alrededor del modelo: — un verificador que busca lagunas lógicas — un meta-verificador que cuestiona al verificador — un generador de pruebas condicionado para evitar razonamientos débiles — un bucle que obliga a cada parte del sistema a afinarse El proceso funciona como un molino: - Produce una prueba - Prueba la prueba - Prueba al probador - Repara el razonamiento - Repite Se enfocaron en el verdadero problema del razonamiento matemático: un modelo puede dar la respuesta correcta por las razones equivocadas. Así que DeepSeek entrenó un verificador que puntúa el razonamiento, no los resultados....