Waarom wordt deze specifieke benchmark als immuun voor benchmarkrot beschouwd? Hoe kan het dat laboratoria ARC-AGI, HLE, SWE-bench, enz. kunnen targeten, maar METR als veilig wordt beschouwd?