事实证明,AI已经可以完成65%的专业任务…… Nvidia让38位博士和MBA花费超过10小时创建基准测试。 他们在实际工作中测试了40多个模型。不是学术练习,而是初级分析师和研究人员每天都在做的真实工作。 GPT-5的整体得分为65.9%。 它们以64.4%的准确率提取事实。需要识别RTX作为最大的国防部承包商?发现IFFIm通过疫苗债券筹集了35亿美元?模型主要从文档中提取特定信息,即使这些信息埋藏在数十页中。 逻辑推理的得分为66.2%。它们可以跟随多步骤推导,正确应用公式,验证因果链。当你需要遵循既定框架进行系统分析时,模型能在三次中交付两次。 意外的赢家:咨询框架的准确率为80%。模型成功地构建市场进入分析、竞争评估和战略建议。它们理解波特的五力分析不仅仅是列出竞争对手,而是分析议价能力动态。 化学问题?成功率为70.6%。模型处理反应机制、合成路径和化学平衡计算,这对大多数非专业人士来说都是挑战。它们在计算摩尔浓度、预测产物、平衡方程方面的水平足以通过研究生课程。 即使在金融领域,模型的表现较弱,得分为63.7%,但它们成功完成大多数估值模型,解释证券化结构,并撰写连贯的投资备忘录。这几乎是三分之二的MBA级别的财务分析正确处理。 ProfBench通过在四个专业领域测试7347个专家编写的标准揭示了这一点。 与仅限于单一领域的狭窄基准不同,它捕捉了知识工作的广度。每次评估12美元(而PaperBench为8000美元),任何研究人员都可以衡量真实能力。 当然,模型在专业格式(65.3%)、物理推导(49.3%)方面存在困难,且尚无法浏览1000页的内容。但我们已经跨越了一个门槛,AI能够正确处理大多数专业任务。 不是完美的。不是完全的。但65%足以从根本上改变知识工作的进行方式。