Рік тому ми перевірили прев'ю невиданої версії @OpenAI o3 (High), яка набрала 88% на ARC-AGI-1 за оцінкою $4.5k за завдання Сьогодні ми підтвердили новий GPT-5.2 Pro (X-High) SOTA-бал 90,5% на рівні $11,64/завдання Це означає ~390-кратне підвищення ефективності за один рік
Ми також підтвердили, що GPT-5.2 Pro (Високий) відповідає SOTA для ARC-AGI-2, набравши 54,2% за $15,72/завдання (Через тайм-аути API ми не змогли надійно перевірити GPT 5.2 Pro X-High на ARC-AGI-2) Усі підтверджені сімейні оцінки GPT-5.2:
ARC-AGI досягає своєї мети на 2019 рік — вивести ШІ за межі запам'ятовування до ефективної адаптації на льоту Системи мислення тепер демонструють справжній гнучкий інтелект у виконанні простих завдань
Навіть із цим значним підвищенням ефективності залишається велика різниця у порівнянні з людьми Головний приз 2025 року становив $0,20 за завдання, а люди стали на кілька порядків ефективнішими в енергетичних показниках У ARC-AGI-1 та ARC-AGI-2 ще багато чого можна навчитися
ARC-AGI-3 (2026) ще більше підвищить можливості та ефективність ШІ Розроблений для вимірювання здатності ШІ ефективно навчатися та узагальнювати в нових середовищах, він стане унікальним у своєму роді Benchmark Interactive Reasoning Benchmark Слідкуйте за оновленнями
Якщо випуск сотень нових ігор, які випробовують межі штучного інтелекту, за кілька місяців звучить захопливо, приєднуйтесь до інженерної команди, яка створює ARC-AGI-3
44,55K