热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚨 这篇论文解释了为什么大多数代理演示无法在真实用户中生存。
一旦你添加了工具、记忆和自主性,每个“提示防御”都会崩溃。
而这个不会。
大多数“提示注入防御”在你添加代理、工具或记忆的瞬间就会崩溃。
这篇论文提出了一个三代理安全管道,加上一个第四个评估代理。每个代理都有一个固定的角色:生成、清理、政策执行。没有争论。没有情绪。只有分层防御。每个中间输出都经过检查、评分和记录。
真正的突破是嵌套学习。
与其将提示视为无状态事件,每个代理都有一个连续记忆系统,具有中期和长期记忆。提示被嵌入并在语义上匹配。如果一个新攻击看起来像以前见过的东西,代理会重用一个经过验证的响应,而不是重新生成一个。
这同时做了三件事。
1,安全性。在301个真实的提示注入攻击中,跨越10个攻击家族,该系统实现了零高风险漏洞。不是降低风险,而是零。
2,可观察性。他们引入了一种新的指标,称为OSR,衡量审计中暴露的安全推理程度。反直觉的是,透明度最高的配置整体表现最佳。
3,持续性。语义缓存将LLM调用减少了41.6%,将延迟从约9秒降至150毫秒。更少的调用意味着更低的成本、更低的能耗和更低的碳排放,而不触及模型权重。
这个结论对大多数代理构建者来说是令人不安的。
安全性并不是来自巧妙的提示。
而是来自架构、记忆和评估纪律。
这是迄今为止最清晰的生产级、安全和可持续的代理AI蓝图之一。
在这里阅读完整论文:

热门
排行
收藏
