Luulen, että METR:n pitkän tehtävän mittaamiseen korostuu liikaa tekoälyn edistyksen merkkinä... ... Mutta sillä ei ole väliä. Pienen GPT-5.2 Pron avustuksella laskin korrelaatiot login (METR):n ja muiden keskeisten testien välillä, ja ne korreloivat käytännössä kaikki vahvasti
Kiitos vielä @EpochAIResearch siitä, että teit niin monet vertailupisteet julkisesti saataville.
87