首个大规模研究AI代理在生产中实际运行的情况。 炒作声称代理正在改变一切。但数据却讲述了不同的故事。 研究人员对306名从业者进行了调查,并在26个领域进行了20个深入的案例研究。他们发现的结果挑战了关于生产代理构建方式的常见假设。 现实是:生产代理故意保持简单且受到严格限制。 1) 模式与可靠性 - 68%的代理在执行最多10个步骤后需要人工干预。 - 47%的代理完成不到5个步骤。 - 70%的代理依赖于现成模型的提示,而没有进行任何微调。 - 74%的代理主要依赖于人工评估。 团队故意在自主性和可靠性之间进行权衡。 为什么会有这些限制?可靠性仍然是最大的未解决挑战。从业者无法在大规模上验证代理的正确性。公共基准很少适用于特定领域的生产任务。75%的受访团队在没有正式基准的情况下进行评估,而是依赖A/B测试和直接用户反馈。 2) 模型选择 模型选择模式让研究人员感到惊讶。20个案例研究中有17个使用了闭源的前沿模型,如Claude Sonnet 4、Claude Opus 4.1和GPT o3。开源的采用很少,主要是由于特定的限制:高容量工作负载使得推理成本变得不可承受,或监管要求阻止与外部提供商共享数据。对于大多数团队来说,运行成本与代理增强的人类专家相比微不足道。 3) 代理框架 框架的采用显示出显著的分歧。61%的调查受访者使用第三方框架,如LangChain/LangGraph。但85%的受访团队在生产部署中从头构建自定义实现。原因是:核心代理循环通过直接API调用实现相对简单。团队更喜欢最小化、专门构建的支架,而不是依赖膨胀和抽象层。 4) 代理控制流 生产架构更倾向于预定义的静态工作流,而不是开放式的自主性。80%的案例研究使用结构化控制流。代理在明确界定的行动空间内操作,而不是自由探索环境。只有一个案例允许不受限制的探索,而该系统仅在经过严格CI/CD验证的沙盒环境中运行。...