Varför anses just denna benchmark vara immun mot benchmark-ruttnad? Hur kommer det sig att laboratorier kan rikta in sig på ARC-AGI, HLE, SWE-bench osv., men METR anses vara säkert?