熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
一年前,我們驗證了一個未發布版本的 @OpenAI o3 (高) 的預覽,該版本在 ARC-AGI-1 上得分 88%,每個任務估計 $4.5k
今天,我們已驗證新的 GPT-5.2 Pro (超高) 的 SOTA 得分為 90.5%,每個任務 $11.64
這代表著一年內效率提高了約 390 倍

我們也驗證了 GPT-5.2 Pro (高) 在 ARC-AGI-2 上的表現為 SOTA,得分為 54.2%,每個任務 $15.72
(由於 API 超時,我們無法可靠地驗證 GPT 5.2 Pro X-高在 ARC-AGI-2 上的表現)
所有已驗證的 GPT-5.2 系列得分:

ARC-AGI 正在實現其 2019 年的目標,將 AI 推向超越記憶的高效即時適應
推理系統現在在簡單任務上展現出真正的流動智力
即使有這麼大的效率提升,與人類之間仍然存在著巨大的差距
2025年的大獎目標是每個任務$0.20,而人類在能源基礎上效率高出幾個數量級
從ARC-AGI-1和ARC-AGI-2中仍有很多可以學習的地方
ARC-AGI-3 (2026) 將進一步推動 AI 的能力和效率
旨在衡量 AI 在新環境中有效學習和概括的能力,這將是一個首創的互動推理基準
敬請期待
如果在短短幾個月內發送數百款測試AI前沿的新遊戲聽起來令人興奮,請加入創建ARC-AGI-3的工程團隊。

44.54K
熱門
排行
收藏
