Ik denk dat er waarschijnlijk te veel nadruk ligt op de METR lange-taakmeting als een teken van AI-vooruitgang... ... maar het maakt niet uit. Met een beetje hulp van GPT-5.2 Pro heb ik de correlaties tussen log(METR) en andere belangrijke benchmarks berekend, en ze correleren in wezen allemaal sterk.
Nogmaals bedankt aan @EpochAIResearch voor het openbaar maken van zoveel benchmark scores.
86