机器人是不可思议的,直到一次错误的挥动把你的牙齿打掉。而且……我喜欢我的牙齿。🦷 这就是为什么RoboSafe是一个游戏规则改变者。研究人员揭示了一种新的安全框架,旨在在物理伤害发生之前阻止它。它本质上是物理世界的实时“护栏”。 与静态代码不同,RoboSafe与代理一起运行,通过两个互补的步骤评估每一个动作: - 反向推理:它检测最近行为中的不安全模式或趋势。 - 正向推理:它预测下一个动作是否会基于上下文越过危险阈值。 它理解“安全”是情境性的。打开微波炉是可以的,除非里面有金属手表。 在测试中,RoboSafe将危险行为减少了约37%,而没有影响代理的生产力。 要点是我们需要停止交叉手指,希望AI“表现良好”。 真正的安全意味着接受代理是不可预测的,并建立假设它们会失败的系统。 护栏 > 良好的意图。🤖🛡️