Mengapa, tolok ukur khusus ini dianggap kebal terhadap pembusukan patokan? Mengapa laboratorium dapat menargetkan ARC-AGI, HLE, SWE-bench, dll. tetapi METR dianggap aman?