为什么AI代理在时间和上下文方面失败,以及糟糕的训练数据如何使情况更糟! 一篇重要的新论文提供了一个令人警醒的见解:大多数AI代理之所以变得危险,并不是因为它们误解了用户指令,而是因为它们根本误解了时间和上下文。 核心问题清晰地说明了: 像“打开微波炉”这样的动作只有在里面没有金属时才是安全的。静态规则和模糊的基于提示的警告无法检测到这一点。许多危险并不是来自单一动作,而是来自一个序列:打开炉子是可以的;打开后忘记关闭则不可以。 提出的解决方案RoboSafe引入了运行时保护措施,执行双向推理: •前向推理在允许执行动作之前检查当前的视觉场景和物体状态。 •后向推理回顾最近的动作,以检测未完成的义务(例如,强制代理关闭其之前激活的电器)。 安全约束以可执行逻辑可验证代码谓词的形式表达,而不是不可靠的自然语言提示。 实验表明,RoboSafe将危险动作减少了36.8%,同时几乎保持了所有任务性能,优于基于提示和静态方法,甚至抵抗了对物理机器人硬件的越狱尝试。 更深层的含义是不可避免的:代理安全不能在训练时完全实现。现实世界的部署需要主动的运行时监控,真正理解时间序列和情境上下文。 但是,为什么今天的模型在时间和上下文方面如此深刻地挣扎呢? 越来越多的证据直接指向数据质量作为主要罪魁祸首。 最近的研究,包括一项由NHS支持的关于药物安全的LLM评估,揭示了一个显著的模式:模型在检测潜在问题时达到了完美的敏感性,但仅有46.9%的时间提出了正确的干预措施。 关键是,86%的失败并不是由于缺乏知识或幻觉,而是由于上下文推理错误——僵硬地应用指导方针而不适应患者目标,误解现实工作流程,或在不确定性需要克制时表现得过于自信。 这种弱点在各个领域重复出现。模型在孤立的模式匹配方面表现出色,但在判断需要细致、情境意识的时间、意图和后果时却表现不佳。 ...