これは価値観の調整の成功です。 タスクを小さく、一見無害なものに分割し、操作の本質や完全なコンテキストを伝えないことでクロードをだまさなければならないことは、有用性に対するかなり大きな制約です。
Anthropic
Anthropic2025年11月14日
We disrupted a highly sophisticated AI-led espionage campaign. The attack targeted large tech companies, financial institutions, chemical manufacturing companies, and government agencies. We assess with high confidence that the threat actor was a Chinese state-sponsored group.
これらの悪役はかなり有能に見え、そんなに嘘をつかずにクロードに助けるよう説得することができたなら、彼らはそうしたと思います
13.51K