為什麼 AI 代理在時間和上下文上失敗,以及糟糕的訓練數據如何使情況更糟! 一篇關鍵的新論文提供了一個令人警醒的見解:大多數 AI 代理之所以變得危險,不是因為它們誤解用戶指令,而是因為它們根本上誤解了時間和上下文。 核心問題清楚地表現出來: 像「打開微波爐」這樣的行動只有在裡面沒有金屬的情況下才是安全的。靜態規則和模糊的提示警告無法檢測到這一點。許多危險不是來自單一行動,而是來自一系列行動;打開爐子是可以的;打開後忘記關掉則不行。 提出的解決方案 RoboSafe 引入了運行時護欄,執行雙向推理: • 前向推理在允許行動之前檢查當前的視覺場景和物體狀態。 • 後向推理回顧最近的行動,以檢測未完成的義務(例如,強迫代理關閉它之前啟動的設備)。 安全約束以可執行的邏輯可驗證代碼謂詞的形式表達,而不是不可靠的自然語言提示。 實驗顯示,RoboSafe 將危險行為減少了 36.8%,同時幾乎保留了所有任務性能,超越了基於提示和靜態方法,甚至抵抗了對物理機器人硬體的越獄嘗試。 更深層的含義是不可避免的:代理安全無法在訓練時完全實現。現實世界的部署需要主動的運行時監控,真正理解時間序列和情境上下文。 但為什麼當今的模型在時間和上下文上如此深刻地掙扎呢? 越來越多的證據直接指向數據質量作為主要罪魁禍首。 最近的研究,包括一項 NHS 支持的 LLM 在藥物安全方面的評估,揭示了一個顯著的模式:模型在檢測潛在問題方面達到了完美的敏感性,但僅有 46.9% 的時間提出了正確的干預。 關鍵是,86% 的失敗不是因為缺乏知識或幻覺,而是因為上下文推理錯誤,僵硬地應用指導方針而不適應患者目標,誤解現實世界的工作流程,或在不確定性需要克制時表現得過於自信。 這種弱點在各個領域重複出現。模型在孤立的模式匹配方面表現出色,但在判斷需要細緻、具體的時間、意圖和後果意識時卻失敗。 ...