Бенчмарки ШІ — це щось на кшталт стандартизованих тестів, з якими ми виросли в школі. OpenAI, здається, навчив тесту з версією 5.2 і створив модель, яка краще складає тести, ніж виконує корисні речі самостійно. Сподіваюся, вони виправлять курс. Поки що я використовую Gemini та Grok