Un anno fa, abbiamo verificato un'anteprima di una versione non rilasciata di @OpenAI o3 (Alta) che ha ottenuto l'88% su ARC-AGI-1 a circa $4.5k/task Oggi, abbiamo verificato un nuovo punteggio SOTA di GPT-5.2 Pro (X-Alta) del 90.5% a $11.64/task Questo rappresenta un miglioramento dell'efficienza di ~390X in un anno
Abbiamo anche verificato che GPT-5.2 Pro (High) è SOTA per ARC-AGI-2, con un punteggio del 54,2% per $15,72/task (A causa dei timeout dell'API, non siamo stati in grado di verificare in modo affidabile GPT 5.2 Pro X-High su ARC-AGI-2) Tutti i punteggi verificati della famiglia GPT-5.2:
ARC-AGI sta raggiungendo il suo obiettivo del 2019 di spingere l'AI oltre la memorizzazione verso un'adattamento efficiente in tempo reale I sistemi di ragionamento mostrano ora una vera intelligenza fluida in compiti semplici
Anche con questo grande miglioramento dell'efficienza, rimane un ampio divario rispetto agli esseri umani L'obiettivo del Grand Prize 2025 era di $0,20/task e gli esseri umani sono diversi ordini di grandezza più efficienti su base energetica C'è ancora molto da imparare da ARC-AGI-1 e ARC-AGI-2
ARC-AGI-3 (2026) porterà la capacità e l'efficienza dell'AI ancora più in alto Progettato per misurare la capacità dell'AI di apprendere e generalizzare in modo efficiente in ambienti nuovi, sarà un benchmark di ragionamento interattivo senza precedenti Rimanete sintonizzati
Se spedire centinaia di nuovi giochi che testano il confine dell'AI in pochi mesi suona entusiasmante, unisciti al team di ingegneria che sta creando ARC-AGI-3
44,54K