Warum wird dieser spezielle Benchmark als immun gegen Benchmark-Verfall angesehen? Wie können Labore ARC-AGI, HLE, SWE-bench usw. anvisieren, während METR als sicher gilt?