o3 Pro på ARC-AGI Semi Private Eval-resultater ARC-AGI-1: * Lav: 44%, $ 1.64 / oppgave * Middels: 57%, $ 3.18 / oppgave * Høy: 59%, $ 4.16 / oppgave ARC-AGI-2: * All resonnementinnsats: <5%, $ 4-7 / oppgave Takeaways: * O3-Pro i tråd med O3-ytelse * o3s nye pris setter ARC-AGI-1 Frontier
For å merke seg, er o3 Pro *ikke* den samme modellen vi testet i desember '24 (o3-forhåndsvisning) OpenAI har eksplisitt bekreftet dette. Se referanse tweet for mer informasjon
ARC Prize
ARC Prize17. apr. 2025
Klargjøring av o3s ARC-AGI-ytelse OpenAI har bekreftet: * Den utgitte o3 er en annen modell enn den vi testet i desember 2024 * Alle utgitte o3-databehandlingsnivåer er mindre enn versjonen vi testet * Den frigitte o3 ble ikke trent på ARC-AGI-data, ikke engang togsettet * Den utgitte o3 er innstilt for chat/produktbruk, noe som introduserer både styrker og svakheter på ARC-AGI Hva ARC Prize vil gjøre: * Vi tester de utgitte o3-nivåene på nytt (alle databehandlingsnivåer) og publiserer oppdaterte resultater. Tidligere poengsummer vil bli merket "forhåndsvisning" * Vi vil teste og frigi o4-mini-resultater så snart som mulig * Vi vil teste o3-pro når den er tilgjengelig
O3-resultatene er oppdatert for å gjenspeile prisreduksjonen på 80 %
Nytt i diagrammet er datapunkter for o3 (Høyt resonnement) og o4-mini (Høyt resonnement). De ble tidligere ekskludert på grunn av modelltidsavbrudd. OpenAIs nye "bakgrunnsmodus" har gjort det mulig for oss å behandle disse modellene på høye datainnstillinger.
Se ledertavlen: Gjengi resultater:
108,76K