Jeg tok i bruk en lignende Generator-Verifikator-tilnærming for bruk av modeller i teoretisk fysikkforskning. Menneskelige eksperter i vitenskapens front kan forbedre Verifikasjonsmodeller til det punktet at autonom drift er ekstremt sterk selv på virkelige forskningsproblemer (ikke bare konstruerte matematiske konkurranseproblemer = velformulerte problemer som kan løses på en endelig tid av mennesker). DeepSeekMathV2 Synergi mellom generator og verifikator Bevisgeneratoren og verifikatoren danner en selvforbedrende tilbakemeldingssløyfe. Etter hvert som generatoren produserer stadig mer komplekse bevis, utfordrer disse verifikatoren og avdekker svakheter som blir nye treningsdata. Innledningsvis veiledet menneskelige eksperter verifikatorens omskolering ved å gjennomgå de flaggede problemene — en prosess som ble effektivisert ved å generere flere verifiseringsforsøk per bevis. Denne «meta-verifiseringen» (å sjekke verifikatorens funn i stedet for bevis direkte) viste seg å være både enklere for mennesker og mer lærbar for LLM-er. Ved å skalere antallet verifikatoranalyser og opplæring på disse AI-assisterte annotasjonene, nådde verifikatoren til slutt et nivå av pålitelighet hvor menneskelig inngripen ikke lenger var nødvendig i de siste rundene — og lukket dermed sirkelen mellom automatisert bevisgenerering og verifikasjon.
steve hsu
steve hsu28. nov., 01:26
Jøss! DeepSeekMath-V2 Generator-Verifierer-arkitektur igjen! ... Mot selvverifiserbar matematisk resonnement undersøker vi hvordan man kan trene en nøyaktig og troverdig LLM-basert verifikator for teorembevis. Vi trener deretter en bevisgenerator med verifikatoren som belønningsmodell, og gir insentiver til generatoren til å identifisere og løse så mange problemer som mulig i sine egne bevis før de ferdigstilles. For å opprettholde generasjonsverifiseringsgapet etter hvert som generatoren blir sterkere, foreslår vi å skalere verifiseringsberegningen slik at nye bevis som er vanskelig å verifisere automatisk merker, og dermed skape treningsdata for å ytterligere forbedre verifikatoren. Vår resulterende modell, DeepSeekMath-V2, demonstrerer sterke teorembevissevner, og oppnår gullnivå-poeng på IMO 2025 og CMO 2024 og en nær perfekt 118/120 på Putnam 2024 med skalert testtidsberegning. Selv om mye arbeid gjenstår, tyder disse resultatene på at selvverifiserbar matematisk resonnement er en gjennomførbar forskningsretning som kan bidra til å utvikle mer kapable matematiske AI-systemer.
Dette beskriver overgangen fra en grunnleggende Generator-Verifikator-pipeline som bruker ferdige modeller, til en der Verifikatoren selv er forbedret via menneskelige eksperttreningsdata brukt i meta-verifisering.
1,41K