一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🚨 这篇论文解释了为什么大多数代理演示无法在真实用户中生存。一旦你添加了工具、记忆和自主性，每个“提示防御”都会崩溃。而这个不会。大多数“提示注入防御”在你添加代理、工具或记忆的瞬间就会崩溃。这篇论文提出了一个三代理安全管道，加上一个第四个评估代理。每个代理都有一个固定的角色：生成、清理、政策执行。没有争论。没有情绪。只有分层防御。每个中间输出都经过检查、评分和记录。真正的突破是嵌套学习。与其将提示视为无状态事件，每个代理都有一个连续记忆系统，具有中期和长期记忆。提示被嵌入并在语义上匹配。如果一个新攻击看起来像以前见过的东西，代理会重用一个经过验证的响应，而不是重新生成一个。这同时做了三件事。 1，安全性。在301个真实的提示注入攻击中，跨越10个攻击家族，该系统实现了零高风险漏洞。不是降低风险，而是零。 2，可观察性。他们引入了一种新的指标，称为OSR，衡量审计中暴露的安全推理程度。反直觉的是，透明度最高的配置整体表现最佳。 3，持续性。语义缓存将LLM调用减少了41.6%，将延迟从约9秒降至150毫秒。更少的调用意味着更低的成本、更低的能耗和更低的碳排放，而不触及模型权重。这个结论对大多数代理构建者来说是令人不安的。安全性并不是来自巧妙的提示。而是来自架构、记忆和评估纪律。这是迄今为止最清晰的生产级、安全和可持续的代理AI蓝图之一。在这里阅读完整论文：