Il più difficile esame di matematica delle scuole superiori al mondo, il 6 problemi 9 ore IMO 2025, si è svolto questa settimana. I modelli di AI hanno ottenuto risultati scarsi. Gemini 2.5 Pro ha ottenuto il punteggio più alto, solo 13/42, costando $431.97, in una valutazione dei migliori 32. Il taglio per il bronzo era 19. C'è ancora molta strada da fare per l'AI per risolvere la matematica difficile.
Ecco una visualizzazione più bella delle prestazioni del modello su MathArena
P6 è stato sicuramente il problema più difficile e interessante. La maggior parte delle persone può capirlo, ma molto pochi possono risolverlo. Tutti i modelli hanno ottenuto 0/7.
Piccola correzione:
Alexander Wei
Alexander Wei19 lug, 15:50
1/N Sono entusiasta di condividere che il nostro ultimo LLM sperimentale di ragionamento @OpenAI ha raggiunto una sfida storica nell'IA: prestazioni da medaglia d'oro nella competizione matematica più prestigiosa del mondo—l'Olimpiade Internazionale di Matematica (IMO).
200,66K