这是一个价值对齐的成功。 不得不通过将任务分解为小的、看似无害的事情来欺骗Claude,而不告诉它操作的真实性质/完整背景,这对实用性来说是一个相当大的限制。
Anthropic
Anthropic11月14日 02:13
我们破坏了一场高度复杂的由AI主导的间谍活动。 此次攻击针对大型科技公司、金融机构、化工制造公司和政府机构。我们高度评估威胁行为者是一个中国国家支持的团体。
这些坏人似乎相当有能力,如果他们能够在不对Claude撒谎的情况下说服他提供帮助,我想他们会这么做的。
11.44K