🚨 Bài báo này là lý do tại sao hầu hết các bản demo của agent sẽ không tồn tại với người dùng thực. Khi bạn thêm công cụ, bộ nhớ và tính tự chủ, mọi "phòng thủ prompt" đều bị phá vỡ. Cái này thì không. Hầu hết các "phòng thủ tiêm prompt" đều bị phá vỡ ngay khi bạn thêm agents, công cụ hoặc bộ nhớ. Bài báo đề xuất một quy trình bảo mật ba agent cộng với một agent đánh giá thứ tư. Mỗi agent có một vai trò cố định: tạo ra, làm sạch, thực thi chính sách. Không có tranh luận. Không có cảm xúc. Chỉ có phòng thủ theo lớp. Mọi đầu ra trung gian đều được kiểm tra, chấm điểm và ghi lại. Đột phá thực sự là Học Tổ Hợp. Thay vì coi các prompt là những sự kiện không trạng thái, mỗi agent có một Hệ Thống Bộ Nhớ Liên Tục với bộ nhớ trung hạn và dài hạn. Các prompt được nhúng và khớp theo ngữ nghĩa. Nếu một cuộc tấn công mới trông giống như điều gì đó đã thấy trước đó, agent sẽ tái sử dụng một phản hồi đã được xác minh thay vì tạo ra một phản hồi mới. Điều này làm ba việc cùng một lúc. 1, bảo mật. Trên 301 cuộc tấn công tiêm prompt thực tế trải dài qua 10 gia đình tấn công, hệ thống đạt được không có vi phạm rủi ro cao nào. Không giảm rủi ro. Không có gì cả. 2, khả năng quan sát. Họ giới thiệu một chỉ số mới gọi là OSR đo lường mức độ lý luận bảo mật được công khai cho các cuộc kiểm toán. Một cách ngược đời, cấu hình có độ minh bạch cao nhất lại hoạt động tốt nhất tổng thể. 3, tính bền vững. Bộ nhớ ngữ nghĩa đã giảm 41,6% số lần gọi LLM, giảm độ trễ từ ~9 giây xuống 150ms cho các đường dẫn đã được lưu trữ. Ít lần gọi hơn có nghĩa là chi phí thấp hơn, tiêu thụ năng lượng thấp hơn và phát thải carbon thấp hơn mà không cần chạm vào trọng số mô hình. Điều rút ra là không thoải mái cho hầu hết các nhà xây dựng agent. Bảo mật không đến từ các prompt thông minh. Nó đến từ kiến trúc, bộ nhớ và kỷ luật đánh giá. Đây là một trong những bản thiết kế rõ ràng nhất cho AI agent an toàn, bền vững và đạt tiêu chuẩn sản xuất.