DeepSeek acaba de lograr el tipo de mejora que todos los modelos de razonamiento pretendían tener. En lugar de soltar una larga cadena de pensamientos y esperar que tenga sentido, DeepSeek Math V2 realiza una investigación completa basada en su propia lógica. Construye una demostración, la ataca, revisa el ataque, revisa la ficha, parche los fallos y hace bucles hasta que ya no puede romperse. Esa sola idea cambió completamente su rendimiento. Esto es lo que produjo ese nivel de autoescrutinio: • Rendimiento de nivel oro en la IMO 2025 • Rendimiento de nivel oro en CMO 2024 • 118/120 en Putnam 2024, la puntuación más alta reportada • Mejores resultados que GPT-5 Thinking y Gemini 2.5 Pro en las categorías más difíciles El secreto no es la escala. Es la arquitectura alrededor del modelo: — un verificador que busca lagunas lógicas — un meta-verificador que cuestiona al verificador — un generador de demostración condicionado para evitar un razonamiento débil — un bucle que obliga a que cada parte del sistema se vuelva más nítida El proceso funciona como un molinillo: - Producir una demostración - Pruébalo - Probar el tester - Reparar el razonamiento -Repetir Apuntaban al verdadero problema del razonamiento matemático: un modelo puede dar la respuesta correcta por las razones equivocadas. Así que DeepSeek entrenó un verificador que califica el razonamiento, no los resultados....