Por que é que este benchmark em particular é considerado imune à degradação de benchmarks? Como é que os laboratórios conseguem direcionar ARC-AGI, HLE, SWE-bench, etc., mas o METR é considerado seguro?