Я думаю, що надто багато уваги приділяється вимірюванню довгих завдань METR як ознаці прогресу ШІ... ... Але це не має значення. З невеликою допомогою GPT-5.2 Pro я розрахував кореляції між log(METR) та іншими ключовими бенчмарками, і всі вони загалом дуже корелюють
Ще раз дякую @EpochAIResearch за те, що зробили так багато результатів бенчмарків публічно доступними.
88