Tại sao, tiêu chuẩn cụ thể này được coi là miễn nhiễm với sự xuống cấp của tiêu chuẩn? Tại sao các phòng thí nghiệm có thể nhắm đến ARC-AGI, HLE, SWE-bench, v.v. nhưng METR lại được coi là an toàn?