Jøss! DeepSeekMath-V2 Generator-Verifierer-arkitektur igjen! ... Mot selvverifiserbar matematisk resonnement undersøker vi hvordan man kan trene en nøyaktig og troverdig LLM-basert verifikator for teorembevis. Vi trener deretter en bevisgenerator med verifikatoren som belønningsmodell, og gir insentiver til generatoren til å identifisere og løse så mange problemer som mulig i sine egne bevis før de ferdigstilles. For å opprettholde generasjonsverifiseringsgapet etter hvert som generatoren blir sterkere, foreslår vi å skalere verifiseringsberegningen slik at nye bevis som er vanskelig å verifisere automatisk merker, og dermed skape treningsdata for å ytterligere forbedre verifikatoren. Vår resulterende modell, DeepSeekMath-V2, demonstrerer sterke teorembevissevner, og oppnår gullnivå-poeng på IMO 2025 og CMO 2024 og en nær perfekt 118/120 på Putnam 2024 med skalert testtidsberegning. Selv om mye arbeid gjenstår, tyder disse resultatene på at selvverifiserbar matematisk resonnement er en gjennomførbar forskningsretning som kan bidra til å utvikle mer kapable matematiske AI-systemer.