Чому саме цей бенчмарк вважається стійким до гниття бенчмарків? Чому лабораторії можуть націлюватися на ARC-AGI, HLE, SWE-bench тощо, а METR вважається безпечним?