DeepSeek heeft net de soort upgrade uitgevoerd die elk redeneermodel heeft gedaan alsof het die had. In plaats van een lange keten van gedachten te dumpen en te hopen dat het logisch is, voert DeepSeek Math V2 een volledige ondervraging uit op zijn eigen logica. Het bouwt een bewijs, valt het aan, controleert de aanval, controleert de controleur, repareert de fouten en herhaalt dit totdat het zichzelf niet meer kan breken. Dat enkele idee heeft de prestaties volledig veranderd. Hier is wat dat niveau van zelfonderzoek heeft opgeleverd: • Gouden niveau prestaties op IMO 2025 • Gouden niveau prestaties op CMO 2024 • 118/120 op Putnam 2024, de hoogste gerapporteerde score • Betere resultaten dan GPT-5 Thinking en Gemini 2.5 Pro in de moeilijkste categorieën Het geheim is niet schaal. Het is de architectuur rond het model: — een verifier die logische hiaten opspoort — een meta-verifier die de verifier in twijfel trekt — een bewijs-generator die is geconditioneerd om zwakke redeneringen te vermijden — een lus die elke onderdeel van het systeem dwingt om scherper te worden Het proces werkt als een molen: - Produceer een bewijs - Test het - Test de tester - Repareer de redenering - Herhaal Ze richtten zich op het echte probleem in wiskundige redenering: een model kan het juiste antwoord geven om de verkeerde redenen. Dus heeft DeepSeek een verifier getraind die redenering beoordeelt, niet resultaten....