METR er ikke 100 % «trygt», men det forblir en av de mest verdifulle målestokkene fordi det drives av et kompetent og ressurssterkt team som inkluderer mange ulike oppgaver som ikke er offentlig tilgjengelige for opplæring. Andre benchmarks kan 'manipuleres' ved at AI-er vet svarene på forhånd (løst av private holdout-sett) eller gjør RL på oppgavene (løst ved å ha et mangfold av oppgaver). ... Benchmarks kan også ende opp med å bli ødelagt på noen måter (for eksempel hadde den opprinnelige SWE-Bench før "SWE-Bench Verified" noen utilsiktet uløselige problemer). Jeg tror ulike benchmarks passer inn i nivåer. METR føles som en gullstandard Tier 1-evaluering. ARC-AGI og FrontierMath er heller ikke så ille, sannsynligvis som Tier 2. SWE-Bench virker litt mindre viktig å se på når du allerede har METR. Jeg ønsker desperat flere topp benchmarks utenfor matematikk og ingeniørfag. Jeg er spent på ARC-AGI-3 (videospillversjonen).