🚨 Makalah ini adalah mengapa sebagian besar demo agen tidak akan bertahan dari pengguna nyata. Setelah Anda menambahkan alat, memori, dan otonomi, setiap "pertahanan cepat" rusak. Yang ini tidak. Sebagian besar "pertahanan injeksi cepat" merusak saat Anda menambahkan agen, alat, atau memori. Makalah ini mengusulkan saluran keamanan tiga agen ditambah agen evaluator keempat. Setiap agen memiliki peran tetap: pembangkitan, sanitasi, penegakan kebijakan. Tidak ada perdebatan. Tidak ada getaran. Hanya pertahanan berlapis. Setiap output perantara diperiksa, dinilai, dan dicatat. Terobosan sebenarnya adalah Nested Learning. Alih-alih memperlakukan prompt sebagai peristiwa tanpa kewarganegaraan, setiap agen memiliki Sistem Memori Kontinum dengan memori jangka menengah dan jangka panjang. Petunjuk disematkan dan dicocokkan secara semantik. Jika serangan baru terlihat seperti sesuatu yang terlihat sebelumnya, agen menggunakan kembali respons terverifikasi alih-alih meregenerasinya. Ini melakukan tiga hal sekaligus. 1, keamanan. Di 301 serangan injeksi cepat nyata yang mencakup 10 keluarga serangan, sistem tidak mencapai pelanggaran berisiko tinggi. Tidak mengurangi risiko. Nol. 2, pengamatan. Mereka memperkenalkan metrik baru yang disebut OSR yang mengukur seberapa banyak penalaran keamanan yang terekspos untuk audit. Berlawanan dengan intuisi, konfigurasi dengan transparansi paling tinggi berkinerja terbaik secara keseluruhan. 3, keberlanjutan. Caching semantik memotong panggilan LLM sebesar 41,6%, menurunkan latensi dari ~9 detik menjadi 150ms untuk jalur yang di-cache. Panggilan yang lebih sedikit berarti biaya lebih rendah, penggunaan energi lebih rendah, dan emisi karbon yang lebih rendah tanpa menyentuh bobot model. Takeaway tidak nyaman bagi sebagian besar pembuat agen. Keamanan tidak berasal dari petunjuk yang cerdas. Itu berasal dari disiplin arsitektur, memori, dan evaluasi. Ini adalah salah satu cetak biru paling jelas untuk AI agen tingkat produksi, aman, dan berkelanjutan. Baca makalah lengkapnya di sini: