METR är inte 100 % "säkert" men det är fortfarande en av de mest värdefulla riktmärkena eftersom det drivs av ett kompetent och välutrustat team som inkluderar många olika uppgifter som inte är offentligt tillgängliga för utbildning. Andra benchmarks kan 'manipuleras' genom att AI:er känner till svaren i förväg (löses av privata holdout-set) eller gör RL på uppgifterna (löses genom att ha en mångfald av uppgifter). ... Benchmarks kan också bli felaktiga på vissa sätt (t.ex. hade den ursprungliga SWE-Bench före "SWE-Bench Verified" några olösliga problem). Jag tycker att olika riktmärken passar in i nivåer. METR känns som en guldstandard Tier 1-utvärdering. ARC-AGI och FrontierMath är inte heller så illa, troligen typ Tier 2. SWE-Bench verkar lite mindre viktigt att titta på när du redan har METR. Jag vill desperat ha fler toppmått utanför matematik och teknik. Jag är taggad på ARC-AGI-3 (videospelsversionen).