Нове дослідження 445 бенчмарків штучного інтелекту • 48% не згодні з тим, що вони вимірюють • 39% використовують зручні, а не коректні дані • 16% статистична значущість тесту Ми все ще не знаємо, як виміряти наші найпотужніші інструменти IMO ставиться до евалів як до спорту, а не як до SAT Конкурс > тестів Чіткі правила - > зрозумілий людині результат