如果你看不到一个代理的工作,你就无法改进它,无法调试它,也无法信任它。 有多少团队在构建代理,却没有办法理解它们在做什么,这真是疯狂。 完全没有可观察性。 这可能是我每次见到新团队时问的第一个问题: 你能给我展示一下你们代理的几次执行的追踪吗? 没有。零。什么都没有。 大型语言模型总是会做出糟糕的决策。 代理会失败,而你不会意识到,直到有人投诉。 至少,你构建的每个代理都应该生成追踪,显示完整的请求流、延迟分析和系统级性能指标。 仅此一项就能揭示80%的操作问题。 但理想情况下,你可以做得更好,捕获以下所有内容: • 模型交互 • 令牌使用 • 时间和性能元数据 • 事件执行 如果你想要可靠的代理,观察性不是可选的。