Cred că există probabil prea mult accent pe măsurarea sarcinilor lungi METR ca semn al progresului AI... ... Dar nu contează. Cu puțin ajutor de la GPT-5.2 Pro, am calculat corelațiile dintre log(METR) și alte benchmark-uri cheie, și practic toate corelează foarte mult
Mulțumiri din nou lui @EpochAIResearch pentru că a făcut publice atât de multe scoruri de reper.
81