一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🚨 這篇論文解釋了為什麼大多數代理演示無法在真實用戶中生存。一旦你添加了工具、記憶和自主性，每個「提示防禦」都會崩潰。這個不會。大多數「提示注入防禦」在你添加代理、工具或記憶的瞬間就會崩潰。這篇論文提出了一個三代理安全管道，加上一個第四個評估代理。每個代理都有固定的角色：生成、清理、政策執行。沒有辯論。沒有氛圍。只有分層防禦。每個中間輸出都會被檢查、評分和記錄。真正的突破是嵌套學習。不再將提示視為無狀態事件，每個代理都有一個連續記憶系統，擁有中期和長期記憶。提示被嵌入並在語義上匹配。如果一個新攻擊看起來像之前見過的東西，代理會重用已驗證的回應，而不是重新生成一個。這同時做了三件事。 1，安全性。在301次真實的提示注入攻擊中，涵蓋10個攻擊家族，系統實現了零高風險違規。不是降低風險，而是零。 2，可觀察性。他們引入了一個新的指標，稱為OSR，測量安全推理在審計中暴露的程度。反直覺的是，透明度最高的配置表現最佳。 3，持續性。語義緩存將LLM調用減少了41.6%，將延遲從約9秒降至150毫秒。更少的調用意味著更低的成本、更低的能耗和更低的碳排放，而不影響模型權重。這個結論對大多數代理建造者來說是令人不安的。安全性不是來自巧妙的提示。而是來自架構、記憶和評估紀律。這是迄今為止最清晰的生產級、安全和可持續的代理AI藍圖之一。在這裡閱讀完整論文：