Hvorfor regnes akkurat denne benchmarken som immun mot benchmark-råte? Hvordan kan laboratorier målrette ARC-AGI, HLE, SWE-bench osv., men METR regnes som trygt?