Ich denke, dass wahrscheinlich zu viel Wert auf die METR-Langzeitmessung als Zeichen für den Fortschritt der KI gelegt wird... ... aber das spielt keine Rolle. Mit ein wenig Hilfe von GPT-5.2 Pro habe ich die Korrelationen zwischen log(METR) und anderen wichtigen Benchmarks berechnet, und sie korrelieren im Grunde alle stark.
Vielen Dank nochmals an @EpochAIResearch, dass so viele Benchmark-Ergebnisse öffentlich verfügbar sind.
77