METR tidak 100% "aman" tetapi tetap menjadi salah satu tolok ukur paling berharga karena dijalankan oleh tim yang kompeten dan sumber daya yang mencakup banyak tugas beragam yang tidak tersedia untuk dilatih secara publik. Tolok ukur lain dapat 'dimainkan' oleh AI yang mengetahui jawabannya sebelumnya (diselesaikan dengan set penahan pribadi) atau melakukan RL pada tugas (diselesaikan dengan memiliki keragaman tugas). ... Tolok ukur juga dapat berakhir dengan kacau dalam beberapa hal (misalnya, SWE-Bench asli sebelum "SWE-Bench Verified" memiliki beberapa masalah yang tidak dapat dipecahkan secara tidak sengaja). Saya pikir tolok ukur yang berbeda cocok dengan tingkatan. METR terasa seperti evaluasi Tier 1 standar emas. ARC-AGI dan FrontierMath juga tidak terlalu buruk, mungkin seperti Tier 2. SWE-Bench tampaknya sedikit kurang penting untuk dilihat ketika Anda sudah memiliki METR. Saya sangat menginginkan lebih banyak tolok ukur teratas di luar matematika dan teknik. Saya senang dengan ARC-AGI-3 (video game).