Miksi, tätä tiettyä vertailuarvoa pidetään immuunina benchmark-mädäntymiselle? Miksi laboratoriot voivat kohdistaa ARC-AGI:n, HLE:n, SWE-benchin jne., mutta METR katsotaan turvalliseksi?