Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jøss! DeepSeekMath-V2
Generator-Verifierer-arkitektur igjen!
... Mot selvverifiserbar matematisk resonnement undersøker vi hvordan man kan trene en nøyaktig og troverdig LLM-basert verifikator for teorembevis. Vi trener deretter en bevisgenerator med verifikatoren som belønningsmodell, og gir insentiver til generatoren til å identifisere og løse så mange problemer som mulig i sine egne bevis før de ferdigstilles. For å opprettholde generasjonsverifiseringsgapet etter hvert som generatoren blir sterkere, foreslår vi å skalere verifiseringsberegningen slik at nye bevis som er vanskelig å verifisere automatisk merker, og dermed skape treningsdata for å ytterligere forbedre verifikatoren. Vår resulterende modell, DeepSeekMath-V2, demonstrerer sterke teorembevissevner, og oppnår gullnivå-poeng på IMO 2025 og CMO 2024 og en nær perfekt 118/120 på Putnam 2024 med skalert testtidsberegning. Selv om mye arbeid gjenstår, tyder disse resultatene på at selvverifiserbar matematisk resonnement er en gjennomførbar forskningsretning som kan bidra til å utvikle mer kapable matematiske AI-systemer.

Topp
Rangering
Favoritter

