おそらく、METRの長期タスク測定がAIの進歩の指標として強調されすぎていると思います... ...でも、それは問題ではない。GPT-5.2 Proの助けを借りて、log(METR)と他の主要なベンチマーク間の相関を計算したところ、基本的にすべて高い相関関係がありました
多くのベンチマークスコアを公開してくださった@EpochAIResearchに改めて感謝します。
88