1/N Jeg er glad for å dele at vår siste @OpenAI eksperimentelle resonnement LLM har oppnådd en langvarig stor utfordring innen AI: gullmedaljenivå på verdens mest prestisjefylte matematikkkonkurranse – International Math Olympiad (IMO).
2/N Vi evaluerte modellene våre på IMO-problemene i 2025 under de samme reglene som menneskelige deltakere: to 4,5 timers eksamensøkter, ingen verktøy eller internett, lesing av de offisielle problemformuleringene og skriving av bevis på naturlig språk.
4/N For det andre er IMO-innsendinger vanskelige å verifisere, flersidige korrekturer. Fremgang her krever å gå utover RL-paradigmet med klare, verifiserbare belønninger. Ved å gjøre det har vi fått en modell som kan lage intrikate, vanntette argumenter på nivå med menneskelige matematikere.
5/N I tillegg til selve resultatet, er jeg begeistret for tilnærmingen vår: Vi når dette kapasitetsnivået ikke via smal, oppgavespesifikk metodikk, men ved å bryte ny innen generell forsterkningslæring og beregningsskalering på testtid.
6/N I vår evaluering løste modellen 5 av de 6 problemene på 2025 IMO. For hver oppgave graderte tre tidligere IMO-medaljevinnere uavhengig av hverandre modellens innsendte bevis, med poengsummer ferdigstilt etter enstemmig konsensus. Modellen tjente 35/42 poeng totalt, nok til gull! 🥇
8/N Btw, vi slipper GPT-5 snart, og vi gleder oss til at du skal prøve det. Men bare for å være tydelig: IMO gold LLM er en eksperimentell forskningsmodell. Vi planlegger ikke å gi ut noe med dette nivået av matematikkkapasitet på flere måneder.
9/N Likevel – dette understreker hvor raskt AI har utviklet seg de siste årene. I 2021 @JacobSteinhardt min PhD-veileder fått meg til å forutsi AI-matematikkfremgang innen juli 2025. Jeg spådde 30 % på MATH-referansen (og syntes alle andre var for optimistiske). I stedet har vi IMO-gull.
11/N Til slutt vil vi gratulere alle deltakerne i IMO 2025 med prestasjonen! Vi er stolte over å ha mange tidligere IMO-deltakere på @OpenAI og anerkjenner at dette er noen av fremtidens lyseste unge hoder.
1,12M