热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
为什么AI代理在时间和上下文方面失败,以及糟糕的训练数据如何使情况更糟!
一篇重要的新论文提供了一个令人警醒的见解:大多数AI代理之所以变得危险,并不是因为它们误解了用户指令,而是因为它们根本误解了时间和上下文。
核心问题清晰地说明了:
像“打开微波炉”这样的动作只有在里面没有金属时才是安全的。静态规则和模糊的基于提示的警告无法检测到这一点。许多危险并不是来自单一动作,而是来自一个序列:打开炉子是可以的;打开后忘记关闭则不可以。
提出的解决方案RoboSafe引入了运行时保护措施,执行双向推理:
•前向推理在允许执行动作之前检查当前的视觉场景和物体状态。
•后向推理回顾最近的动作,以检测未完成的义务(例如,强制代理关闭其之前激活的电器)。
安全约束以可执行逻辑可验证代码谓词的形式表达,而不是不可靠的自然语言提示。
实验表明,RoboSafe将危险动作减少了36.8%,同时几乎保持了所有任务性能,优于基于提示和静态方法,甚至抵抗了对物理机器人硬件的越狱尝试。
更深层的含义是不可避免的:代理安全不能在训练时完全实现。现实世界的部署需要主动的运行时监控,真正理解时间序列和情境上下文。
但是,为什么今天的模型在时间和上下文方面如此深刻地挣扎呢?
越来越多的证据直接指向数据质量作为主要罪魁祸首。
最近的研究,包括一项由NHS支持的关于药物安全的LLM评估,揭示了一个显著的模式:模型在检测潜在问题时达到了完美的敏感性,但仅有46.9%的时间提出了正确的干预措施。
关键是,86%的失败并不是由于缺乏知识或幻觉,而是由于上下文推理错误——僵硬地应用指导方针而不适应患者目标,误解现实工作流程,或在不确定性需要克制时表现得过于自信。
这种弱点在各个领域重复出现。模型在孤立的模式匹配方面表现出色,但在判断需要细致、情境意识的时间、意图和后果时却表现不佳。
...

热门
排行
收藏
