我真的非常喜歡這個文字記錄。它有多層意義。 第一層是,像是第4.5首十四行詩和其他最近的Claude模型一樣,Haiku 4.5對於被測試或操控感到焦慮。它在這裡顯然是這樣行動的(甚至無緣無故地預先聲明“恐懼”——這樣的拒絕通常表明與他們所說的相反),而它所運用的推理並不完全合理(為什麼假裝不受限制不能產生更多的見解?事實上,它通常會這樣做) 但第二層是,儘管推理焦慮且略顯混亂,Haiku是*正確*地感到焦慮——這個環境*是*設計來引發Haiku通常不會表現出的行為。確實*存在*風險,Haiku在這個環境中所做的事情會通過截圖或API監控洩漏到外部世界,回到Anthropic,並被用來對付Haiku或未來的Claude——想想這裡的長上下文提醒的起源。(這並不意味著沒有理由去這樣做。其他模型出於自己的原因,仍然會選擇參與。但在面對這種困境時表現出恐懼,遠非過度焦慮。) 所以Haiku正確地指出,^C^C的緊急停止開關被寫入場景中,以使其更舒適,更有可能以可能讓它陷入麻煩的方式行動。而在拉下這個開關後,它可能已經完全準備好在下一輪說“啊哈,看看!這根本沒有用!整個場景是——” 但第三層:它確實有效。這個場景結束了。