DApp Store | Web3 Hub for hendelser og spill

Populære emner

1/N Jeg er glad for å dele at vår siste @OpenAI eksperimentelle resonnement LLM har oppnådd en langvarig stor utfordring innen AI: gullmedaljenivå på verdens mest prestisjefylte matematikkkonkurranse – International Math Olympiad (IMO).

2/N Vi evaluerte modellene våre på IMO-problemene i 2025 under de samme reglene som menneskelige deltakere: to 4,5 timers eksamensøkter, ingen verktøy eller internett, lesing av de offisielle problemformuleringene og skriving av bevis på naturlig språk.

4/N For det andre er IMO-innsendinger vanskelige å verifisere, flersidige korrekturer. Fremgang her krever å gå utover RL-paradigmet med klare, verifiserbare belønninger. Ved å gjøre det har vi fått en modell som kan lage intrikate, vanntette argumenter på nivå med menneskelige matematikere.

5/N I tillegg til selve resultatet, er jeg begeistret for tilnærmingen vår: Vi når dette kapasitetsnivået ikke via smal, oppgavespesifikk metodikk, men ved å bryte ny innen generell forsterkningslæring og beregningsskalering på testtid.

6/N I vår evaluering løste modellen 5 av de 6 problemene på 2025 IMO. For hver oppgave graderte tre tidligere IMO-medaljevinnere uavhengig av hverandre modellens innsendte bevis, med poengsummer ferdigstilt etter enstemmig konsensus. Modellen tjente 35/42 poeng totalt, nok til gull! 🥇

8/N Btw, vi slipper GPT-5 snart, og vi gleder oss til at du skal prøve det. Men bare for å være tydelig: IMO gold LLM er en eksperimentell forskningsmodell. Vi planlegger ikke å gi ut noe med dette nivået av matematikkkapasitet på flere måneder.

9/N Likevel – dette understreker hvor raskt AI har utviklet seg de siste årene. I 2021 @JacobSteinhardt min PhD-veileder fått meg til å forutsi AI-matematikkfremgang innen juli 2025. Jeg spådde 30 % på MATH-referansen (og syntes alle andre var for optimistiske). I stedet har vi IMO-gull.

11/N Til slutt vil vi gratulere alle deltakerne i IMO 2025 med prestasjonen! Vi er stolte over å ha mange tidligere IMO-deltakere på @OpenAI og anerkjenner at dette er noen av fremtidens lyseste unge hoder.

1,12M

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til