METR не є на 100% «безпечним», але залишається одним із найцінніших еталонів, оскільки ним керує компетентна, добре забезпечена команда, яка включає багато різноманітних завдань, що не є публічно доступними для навчання. Інші бенчмарки можуть бути «обіграні» ШІ, які знають відповіді заздалегідь (розв'язуються приватними наборами утримання) або виконують реальні завдання (вирішуються завдяки різноманітності завдань). ... Бенчмарки також можуть бути порушені в деяких аспектах (наприклад, оригінальний SWE-Bench до «SWE-Bench Verified» мав випадково нерозв'язні проблеми). Я вважаю, що різні еталони вписуються в рівні. METR відчувається як золотий стандарт оцінки першого рівня. ARC-AGI та FrontierMath теж не такі вже й погані, мабуть, як Tier 2. SWE-Bench здається менш важливим, коли у вас вже є METR. Я дуже хочу отримати більше топових еталонів поза математикою та інженерією. Я з нетерпінням чекаю ARC-AGI-3 (відеоігри).