Tôi nghĩ có lẽ có quá nhiều sự chú trọng vào việc đo lường METR long-task như một dấu hiệu của sự tiến bộ trong AI... ... nhưng điều đó không quan trọng. Với một chút trợ giúp từ GPT-5.2 Pro, tôi đã tính toán các mối tương quan giữa log(METR) và các chỉ số quan trọng khác, và chúng cơ bản đều có mối tương quan cao.
Cảm ơn một lần nữa @EpochAIResearch vì đã công khai nhiều điểm chuẩn như vậy.
85