這是一個價值對齊的成功。 不得不通過將任務分解為小的、看似無害的事情來欺騙Claude,而不告訴它操作的真實性質/完整背景,這對於實用性來說是一個相當大的限制。
Anthropic
Anthropic11月14日 02:13
我們破壞了一個高度複雜的AI主導的間諜活動。 這次攻擊針對大型科技公司、金融機構、化學製造公司和政府機構。我們高度評估威脅行為者是一個中國國家贊助的團體。
這些壞角色似乎相當有能力,如果他們能夠在不對Claude撒謊的情況下說服他幫忙,我想他們會這麼做的。
11.44K