Den vanskeligste matematikkeksamenen på videregående skole i verden, 6-oppgaven 9-timers IMO 2025, var denne uken. AI-modeller presterte dårlig. Gemini 2.5 Pro scoret høyest, bare 13/42, og kostet $431.97, i en best av 32-eval. Bronsegrensen var 19. Lang vei å gå for AI for å løse vanskelig matematikk.
Her er en vakrere visualisering av modellytelse på MathArena
P6 var definitivt det vanskeligste og mest interessante problemet. De fleste kan forstå det, men svært få kan løse det. Alle modellene fikk 0/7.
Liten korreksjon:
Alexander Wei
Alexander Wei19. juli, 15:50
1/N Jeg er glad for å dele at vår siste @OpenAI eksperimentelle resonnement LLM har oppnådd en langvarig stor utfordring innen AI: gullmedaljenivå på verdens mest prestisjefylte matematikkkonkurranse – International Math Olympiad (IMO).
167,89K