Бенчмарки AI похожи на стандартизированные тесты, с которыми мы росли в школе. Похоже, что OpenAI учился на этих тестах с 5.2 и создал модель, которая лучше справляется с тестами, чем с полезными задачами самостоятельно. Надеюсь, они исправят курс. Пока я использую Gemini и Grok