Proč je tento konkrétní benchmark považován za imunní vůči jejich rozkladu? Jak to, že laboratoře mohou cílit na ARC-AGI, HLE, SWE-bench atd., ale METR je považován za bezpečný?