Jag tror att det sannolikt läggs för stor vikt vid METR:s långtidsmätning som ett tecken på AI-framsteg... ... Men det spelar ingen roll. Med lite hjälp från GPT-5.2 Pro beräknade jag korrelationerna mellan log(METR) och andra viktiga benchmarks, och de korrelerar i princip alla högt
Tack igen till @EpochAIResearch för att så många benchmark-poäng är offentliga.
90