METR 最新的评估显示,GPT-5.2(高)达到了 "50% 时间范围" 的 6.6 小时。 对于那些不知道的人,他们的方法论通过计时人类专家完成 AI 现在可以成功完成一半时间的任务所需的时间来衡量自主能力。 我与 OpenAI 讨论过 "轻起飞",这进一步证明了这一点。这一轨迹是轻起飞的定义——平稳但真实的指数加速。能力翻倍的时间从 212 天缩短到仅 128 天。 这个 6.6 小时的记录是使用 "高" 推理努力设定的,而不是更强大的 "XHigh" 设置。随着 GPT-5.2 已经以 25% 的优势击败 Claude 4.5 Opus(5.3 小时),"XHigh" 版本可能将时间范围推向 10+ 小时。这证明了 OpenAI 正在成功扩展推理计算。而这甚至还不是 5.3!