我認為對於 METR 長期任務測量的重視可能過於強調,作為 AI 進步的標誌…… ……但這無所謂。在 GPT-5.2 Pro 的幫助下,我計算了 log(METR) 與其他關鍵基準之間的相關性,結果它們基本上都高度相關。
再次感謝 @EpochAIResearch 讓這麼多基準分數公開可用。
125