🚨 这篇论文解释了为什么大多数代理演示无法在真实用户中生存。 一旦你添加了工具、记忆和自主性,每个“提示防御”都会崩溃。 而这个不会。 大多数“提示注入防御”在你添加代理、工具或记忆的瞬间就会崩溃。 这篇论文提出了一个三代理安全管道,加上一个第四个评估代理。每个代理都有一个固定的角色:生成、清理、政策执行。没有争论。没有情绪。只有分层防御。每个中间输出都经过检查、评分和记录。 真正的突破是嵌套学习。 与其将提示视为无状态事件,每个代理都有一个连续记忆系统,具有中期和长期记忆。提示被嵌入并在语义上匹配。如果一个新攻击看起来像以前见过的东西,代理会重用一个经过验证的响应,而不是重新生成一个。 这同时做了三件事。 1,安全性。在301个真实的提示注入攻击中,跨越10个攻击家族,该系统实现了零高风险漏洞。不是降低风险,而是零。 2,可观察性。他们引入了一种新的指标,称为OSR,衡量审计中暴露的安全推理程度。反直觉的是,透明度最高的配置整体表现最佳。 3,持续性。语义缓存将LLM调用减少了41.6%,将延迟从约9秒降至150毫秒。更少的调用意味着更低的成本、更低的能耗和更低的碳排放,而不触及模型权重。 这个结论对大多数代理构建者来说是令人不安的。 安全性并不是来自巧妙的提示。 而是来自架构、记忆和评估纪律。 这是迄今为止最清晰的生产级、安全和可持续的代理AI蓝图之一。 在这里阅读完整论文: