Я думаю, что, вероятно, слишком много внимания уделяется измерению долгосрочной задачи METR как признаку прогресса ИИ... ... но это не имеет значения. С небольшой помощью от GPT-5.2 Pro я вычислил корреляции между log(METR) и другими ключевыми показателями, и они, в основном, все имеют высокую корреляцию.
Еще раз спасибо @EpochAIResearch за то, что сделали так много бенчмарков доступными для общественности.
101