Mengapa Agen AI Gagal pada Waktu dan Konteks Dan Bagaimana Data Pelatihan yang Buruk Memperburuknya! Sebuah makalah baru yang kritis memberikan wawasan yang serius: sebagian besar agen AI menjadi berbahaya bukan karena mereka salah memahami instruksi pengguna, tetapi karena mereka pada dasarnya salah memahami waktu dan konteks. Masalah inti diilustrasikan dengan jelas: Tindakan seperti "nyalakan microwave" hanya aman jika tidak ada logam di dalamnya. Aturan statis dan peringatan berbasis prompt yang tidak jelas tidak dapat mendeteksi ini. Banyak bahaya timbul bukan dari satu tindakan, tetapi dari urutan menyalakan kompor tidak apa-apa; menyalakannya dan kemudian lupa mematikannya tidak. Solusi yang diusulkan, RoboSafe, memperkenalkan pagar pembatas runtime yang melakukan penalaran dua arah: • Penalaran ke depan memeriksa adegan visual saat ini dan keadaan objek sebelum mengizinkan tindakan. •Penalaran mundur meninjau tindakan terbaru untuk mendeteksi kewajiban yang belum selesai (misalnya, memaksa agen untuk mematikan alat yang sebelumnya diaktifkan). Kendala keamanan dinyatakan sebagai predikat kode yang dapat diverifikasi logika yang dapat dieksekusi, bukan perintah bahasa alami yang tidak dapat diandalkan. Eksperimen menunjukkan RoboSafe mengurangi tindakan berbahaya sebesar 36,8% sambil mempertahankan hampir semua kinerja tugas, mengungguli metode berbasis prompt dan statis, dan bahkan menolak upaya jailbreak pada perangkat keras robot fisik. Implikasi yang lebih dalam tidak dapat dihindari: keselamatan agen tidak dapat sepenuhnya dicapai pada waktu pelatihan. Penerapan dunia nyata menuntut pemantauan runtime aktif yang benar-benar memahami urutan temporal dan konteks situasional. Tetapi mengapa model saat ini berjuang begitu mendalam dengan waktu dan konteks untuk memulai? Semakin banyak bukti menunjuk langsung pada kualitas data sebagai penyebab utama. Studi terbaru, termasuk evaluasi LLM yang didukung NHS dalam keamanan pengobatan, mengungkapkan pola yang mencolok: model mencapai sensitivitas sempurna dalam mendeteksi masalah potensial tetapi mengusulkan intervensi yang benar hanya 46,9% dari waktu. Yang terpenting, 86% kegagalan bukan berasal dari kehilangan pengetahuan atau halusinasi, tetapi dari kesalahan penalaran kontekstual yang menerapkan pedoman secara kaku tanpa beradaptasi dengan tujuan pasien, salah memahami alur kerja dunia nyata, atau bertindak terlalu percaya diri ketika ketidakpastian membutuhkan pengekangan. Kelemahan ini berulang di seluruh domain. Model unggul dalam pencocokan pola yang terisolasi tetapi goyah ketika penilaian membutuhkan kesadaran yang bernuansa dan terlokasi tentang waktu, niat, dan konsekuensi. ...