我对我们在Opus 4.5发布前审计中的一项分析印象深刻。我们的行为评估发现了模型明显欺骗的一个例子。通过分析内部激活,我们识别出一个可疑的根本原因,以及在训练期间类似行为的案例。(1/7)