Оскільки OpenAI не оновив Рисунок 7 з GDPval, враховуючи успішність GPT-5.2 у довготривалих завданнях, я використав GPT-5.2 Pro для цього. Графік передбачає, що процес такий: делегувати довгі завдання ШІ, оцінювати результат протягом години, а потім вирішувати спробувати ще раз або здатися і зробити все самостійно.
Оригінальний (GPT-5 мав відсоток перемог 39% проти експертів-людей, GPT-5.2 — близько 72%)
168