METR nu este 100% "sigur", dar rămâne unul dintre cele mai valoroase repere deoarece este condus de o echipă competentă, bine dotată cu resurse, care include multe sarcini diverse ce nu sunt disponibile public pentru instruire. Alte benchmark-uri pot fi "manipulate" de AI-uri care cunosc răspunsurile dinainte (rezolvate prin seturi private de reținere) sau fac RL la sarcini (rezolvate prin diversitatea sarcinilor). ... Benchmark-urile pot, de asemenea, să fie defectuoase în anumite moduri (de exemplu, SWE-Bench original înainte de "SWE-Bench Verified" avea unele probleme accidental de nerezolvat). Cred că diferite repere se încadrează în niveluri. METR pare o evaluare standard de aur de nivel 1. ARC-AGI și FrontierMath nu sunt nici ele atât de rele, probabil ca Tier 2. SWE-Bench pare puțin mai puțin important de analizat când ai deja METR. Îmi doresc cu disperare mai multe repere de top, în afara matematicii și ingineriei. Sunt entuziasmat de ARC-AGI-3 (cel pentru jocuri video).