我對我們在 Opus 4.5 發布前審計中的一項分析印象深刻。我們的行為評估揭示了模型明顯欺騙的例子。通過分析內部激活,我們確定了一個可疑的根本原因,以及訓練期間類似行為的案例。(1/7)