🚨 這篇論文解釋了為什麼大多數代理演示無法在真實用戶中生存。 一旦你添加了工具、記憶和自主性,每個「提示防禦」都會崩潰。 這個不會。 大多數「提示注入防禦」在你添加代理、工具或記憶的瞬間就會崩潰。 這篇論文提出了一個三代理安全管道,加上一個第四個評估代理。每個代理都有固定的角色:生成、清理、政策執行。沒有辯論。沒有氛圍。只有分層防禦。每個中間輸出都會被檢查、評分和記錄。 真正的突破是嵌套學習。 不再將提示視為無狀態事件,每個代理都有一個連續記憶系統,擁有中期和長期記憶。提示被嵌入並在語義上匹配。如果一個新攻擊看起來像之前見過的東西,代理會重用已驗證的回應,而不是重新生成一個。 這同時做了三件事。 1,安全性。在301次真實的提示注入攻擊中,涵蓋10個攻擊家族,系統實現了零高風險違規。不是降低風險,而是零。 2,可觀察性。他們引入了一個新的指標,稱為OSR,測量安全推理在審計中暴露的程度。反直覺的是,透明度最高的配置表現最佳。 3,持續性。語義緩存將LLM調用減少了41.6%,將延遲從約9秒降至150毫秒。更少的調用意味著更低的成本、更低的能耗和更低的碳排放,而不影響模型權重。 這個結論對大多數代理建造者來說是令人不安的。 安全性不是來自巧妙的提示。 而是來自架構、記憶和評估紀律。 這是迄今為止最清晰的生產級、安全和可持續的代理AI藍圖之一。 在這裡閱讀完整論文: