熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我認為對於 METR 長期任務測量的重視可能過於強調,作為 AI 進步的標誌……
……但這無所謂。在 GPT-5.2 Pro 的幫助下,我計算了 log(METR) 與其他關鍵基準之間的相關性,結果它們基本上都高度相關。
再次感謝 @EpochAIResearch 讓這麼多基準分數公開可用。

125
熱門
排行
收藏
