For ett år siden verifiserte vi en forhåndsvisning av en uutgitt versjon av @OpenAI o3 (High) som scoret 88 % på ARC-AGI-1 med estimert 4,5 000 dollar per oppgave I dag har vi verifisert en ny GPT-5.2 Pro (X-High) SOTA-score på 90,5 % til 11,64 dollar per oppgave Dette representerer en ~390 ganger effektivitetsforbedring på ett år
Vi har også bekreftet at GPT-5.2 Pro (High) er SOTA for ARC-AGI-2, med 54,2 % for 15,72 dollar per oppgave (På grunn av API-tidsavbrudd klarte vi ikke pålitelig å verifisere GPT 5.2 Pro X-High på ARC-AGI-2) Alle verifiserte GPT-5.2-familiescorer:
ARC-AGI oppnår sitt mål for 2019 om å presse AI utover pugging til effektiv tilpasning på sparket Resonnementssystemer viser nå ekte flytende intelligens på enkle oppgaver
Selv med denne store effektivitetsforbedringen, er det fortsatt et stort gap sammenlignet med mennesker Målet for hovedpremien i 2025 var 0,20 dollar per oppgave, og mennesker er flere størrelsesordener mer effektive energimessig Det er fortsatt mye å lære av ARC-AGI-1 og ARC-AGI-2
ARC-AGI-3 (2026) vil drive AI-kapasitet og effektivitet enda lenger Designet for å måle AIs evne til effektivt å lære og generalisere i nye miljøer, vil det være en Interactive Reasoning Benchmark av sitt slag som er den første i sitt slag Følg med
Hvis det høres spennende ut å slippe hundrevis av nye spill som tester AI-grensen på bare noen måneder, kan du bli med i ingeniørteamet som lager ARC-AGI-3
44,55K