DApp Store | Piattaforma Web3 per eventi e giochi

Oggi, noi di @OpenAI abbiamo raggiunto un traguardo che molti consideravano lontano anni: prestazioni da medaglia d'oro al 2025 IMO con un LLM di ragionamento generale—sotto gli stessi limiti di tempo degli esseri umani, senza strumenti. Per quanto straordinario possa sembrare, è ancora più significativo di quanto riportato nel titolo 🧵

Tipicamente, per questi risultati dell'IA, come in Go/Dota/Poker/Diplomacy, i ricercatori trascorrono anni a creare un'IA che padroneggia un dominio ristretto e fa poco altro. Ma questo non è un modello specifico per l'IMO. È un LLM di ragionamento che incorpora nuove tecniche generali sperimentali.

Qual è la differenza? Abbiamo sviluppato nuove tecniche che rendono i LLM molto migliori in compiti difficili da verificare. A mio avviso, i problemi erano la sfida perfetta per questo: le prove sono lunghe pagine e richiedono ore agli esperti per essere valutate. Confronta questo con l'AIME, dove le risposte sono semplicemente un intero da 0 a 999.

Anche questo modello pensa per un *lungo* periodo. o1 ha pensato per secondi. Deep Research per minuti. Questo pensa per ore. È importante notare che è anche più efficiente nel suo modo di pensare. E c'è molto margine per spingere ulteriormente il calcolo e l'efficienza durante il test.

Vale la pena riflettere su quanto sia stata rapida l'evoluzione dell'IA, specialmente in matematica. Nel 2024, i laboratori di IA utilizzavano la matematica delle scuole elementari (GSM8K) come valutazione nelle loro versioni di modelli. Da allora, abbiamo saturato il benchmark MATH (scuole superiori), poi l'AIME, e ora siamo al livello oro dell'IMO.

Dove va a finire tutto questo? Per quanto rapida sia stata la recente evoluzione dell'IA, mi aspetto pienamente che la tendenza continui. È importante notare che siamo vicini a un contributo sostanziale dell'IA alla scoperta scientifica. C'è una grande differenza tra un'IA leggermente al di sotto delle migliori prestazioni umane e una leggermente al di sopra.

Questo è stato un piccolo sforzo di squadra guidato da @alexwei_. Ha preso un'idea di ricerca in cui pochi credevano e l'ha utilizzata per ottenere un risultato che in pochi pensavano fosse possibile. Questo non sarebbe stato possibile senza anni di ricerca e ingegneria da parte di molti in @OpenAI e nella più ampia comunità AI.

Quando lavori in un laboratorio all'avanguardia, di solito sai dove si trovano le capacità di frontiera mesi prima di chiunque altro. Ma questo risultato è completamente nuovo, utilizzando tecniche recentemente sviluppate. È stata una sorpresa anche per molti ricercatori di OpenAI. Oggi, tutti possono vedere dove si trova la frontiera.