Oggi, noi di @OpenAI abbiamo raggiunto un traguardo che molti consideravano lontano anni: prestazioni da medaglia d'oro al 2025 IMO con un LLM di ragionamento generale—sotto gli stessi limiti di tempo degli esseri umani, senza strumenti. Per quanto straordinario possa sembrare, è ancora più significativo di quanto riportato nel titolo 🧵
Alexander Wei
Alexander Wei19 lug, 15:50
1/N Sono entusiasta di condividere che il nostro ultimo LLM sperimentale di ragionamento @OpenAI ha raggiunto una sfida storica nell'IA: prestazioni da medaglia d'oro nella competizione matematica più prestigiosa del mondo—l'Olimpiade Internazionale di Matematica (IMO).
Tipicamente, per questi risultati dell'IA, come in Go/Dota/Poker/Diplomacy, i ricercatori trascorrono anni a creare un'IA che padroneggia un dominio ristretto e fa poco altro. Ma questo non è un modello specifico per l'IMO. È un LLM di ragionamento che incorpora nuove tecniche generali sperimentali.
Qual è la differenza? Abbiamo sviluppato nuove tecniche che rendono i LLM molto migliori in compiti difficili da verificare. A mio avviso, i problemi erano la sfida perfetta per questo: le prove sono lunghe pagine e richiedono ore agli esperti per essere valutate. Confronta questo con l'AIME, dove le risposte sono semplicemente un intero da 0 a 999.
Anche questo modello pensa per un *lungo* periodo. o1 ha pensato per secondi. Deep Research per minuti. Questo pensa per ore. È importante notare che è anche più efficiente nel suo modo di pensare. E c'è molto margine per spingere ulteriormente il calcolo e l'efficienza durante il test.
Noam Brown
Noam Brown13 set 2024
@OpenAI @rao2z o1 di @OpenAI pensa per secondi, ma puntiamo a versioni future che possano pensare per ore, giorni, persino settimane. I costi di inferenza saranno più elevati, ma quale costo saresti disposto a pagare per un nuovo farmaco contro il cancro? Per batterie rivoluzionarie? Per una prova dell'Ipotesi di Riemann? L'IA può essere più di semplici chatbot.
Vale la pena riflettere su quanto sia stata rapida l'evoluzione dell'IA, specialmente in matematica. Nel 2024, i laboratori di IA utilizzavano la matematica delle scuole elementari (GSM8K) come valutazione nelle loro versioni di modelli. Da allora, abbiamo saturato il benchmark MATH (scuole superiori), poi l'AIME, e ora siamo al livello oro dell'IMO.
Dove va a finire tutto questo? Per quanto rapida sia stata la recente evoluzione dell'IA, mi aspetto pienamente che la tendenza continui. È importante notare che siamo vicini a un contributo sostanziale dell'IA alla scoperta scientifica. C'è una grande differenza tra un'IA leggermente al di sotto delle migliori prestazioni umane e una leggermente al di sopra.
Questo è stato un piccolo sforzo di squadra guidato da @alexwei_. Ha preso un'idea di ricerca in cui pochi credevano e l'ha utilizzata per ottenere un risultato che in pochi pensavano fosse possibile. Questo non sarebbe stato possibile senza anni di ricerca e ingegneria da parte di molti in @OpenAI e nella più ampia comunità AI.
Quando lavori in un laboratorio all'avanguardia, di solito sai dove si trovano le capacità di frontiera mesi prima di chiunque altro. Ma questo risultato è completamente nuovo, utilizzando tecniche recentemente sviluppate. È stata una sorpresa anche per molti ricercatori di OpenAI. Oggi, tutti possono vedere dove si trova la frontiera.
1,07M