Anthropicによる新しいアライメント研究。 「AIは体系的な不整合によるものではなく、一貫性のない行動――予測不能で自己破壊的な行動――によって失敗するかもしれません。これは一貫した目的に最適化されないものです。つまり、AIも人間がよく失敗するように、ひどい状態になることになるかもしれない。