一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

METR 最新的评估显示，GPT-5.2（高）达到了 "50% 时间范围" 的 6.6 小时。对于那些不知道的人，他们的方法论通过计时人类专家完成 AI 现在可以成功完成一半时间的任务所需的时间来衡量自主能力。我与 OpenAI 讨论过 "轻起飞"，这进一步证明了这一点。这一轨迹是轻起飞的定义——平稳但真实的指数加速。能力翻倍的时间从 212 天缩短到仅 128 天。这个 6.6 小时的记录是使用 "高" 推理努力设定的，而不是更强大的 "XHigh" 设置。随着 GPT-5.2 已经以 25% 的优势击败 Claude 4.5 Opus（5.3 小时），"XHigh" 版本可能将时间范围推向 10+ 小时。这证明了 OpenAI 正在成功扩展推理计算。而这甚至还不是 5.3！