يبدأ الأمر في أن يصبح مخيفا عندما تبدأ النماذج في الأداء بشكل جيد في اختبارات الأداء التي كنت تعتقد أنها ستستغرق سنوات. ماذا تعني أن النماذج تحصل على 30-40٪ في ARC AGI 2، بينما بالكاد كان بإمكانهم الحصول على 40٪ في ARC AGI 1، في بداية هذا العام. لقد كنت أعمل مع ARC وعلى ذلك لسنوات. هذا تقدم غير مسبوق حتى بالنسبة للتدريب على مجموعة اختبار