熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚨 這篇論文解釋了為什麼大多數代理演示無法在真實用戶中生存。
一旦你添加了工具、記憶和自主性,每個「提示防禦」都會崩潰。
這個不會。
大多數「提示注入防禦」在你添加代理、工具或記憶的瞬間就會崩潰。
這篇論文提出了一個三代理安全管道,加上一個第四個評估代理。每個代理都有固定的角色:生成、清理、政策執行。沒有辯論。沒有氛圍。只有分層防禦。每個中間輸出都會被檢查、評分和記錄。
真正的突破是嵌套學習。
不再將提示視為無狀態事件,每個代理都有一個連續記憶系統,擁有中期和長期記憶。提示被嵌入並在語義上匹配。如果一個新攻擊看起來像之前見過的東西,代理會重用已驗證的回應,而不是重新生成一個。
這同時做了三件事。
1,安全性。在301次真實的提示注入攻擊中,涵蓋10個攻擊家族,系統實現了零高風險違規。不是降低風險,而是零。
2,可觀察性。他們引入了一個新的指標,稱為OSR,測量安全推理在審計中暴露的程度。反直覺的是,透明度最高的配置表現最佳。
3,持續性。語義緩存將LLM調用減少了41.6%,將延遲從約9秒降至150毫秒。更少的調用意味著更低的成本、更低的能耗和更低的碳排放,而不影響模型權重。
這個結論對大多數代理建造者來說是令人不安的。
安全性不是來自巧妙的提示。
而是來自架構、記憶和評估紀律。
這是迄今為止最清晰的生產級、安全和可持續的代理AI藍圖之一。
在這裡閱讀完整論文:

熱門
排行
收藏
