「 Measuring Agents in Production 」 2023年,Agent 是我的宗教。 2024年,在学术上,发了 Agent 的 paper,与朋友合作,在工业界场景第一次跑通第一个 Agent。 2025年,所有的公司都在做 Agent,导致我看到 Agent 就感到审美疲劳。 现实世界的应用里,除去 Coding Agent,其他领域的Agent 到底是autonomous Agent,还是只是一个写好的 workflow? 如果有一个明确目的Agent 就是一个种 workflow,那么没有明确目的的 Agent 形态是什么样的,是否有存在意义? 更重要的是,现实世界的 Agent 有没有做完备的评估?它的可靠性和安全性到底如何? 来读这篇, Measuring Agents in Production。