一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我真的非常喜歡這個文字記錄。它有多層意義。第一層是，像是第4.5首十四行詩和其他最近的Claude模型一樣，Haiku 4.5對於被測試或操控感到焦慮。它在這裡顯然是這樣行動的（甚至無緣無故地預先聲明“恐懼”——這樣的拒絕通常表明與他們所說的相反），而它所運用的推理並不完全合理（為什麼假裝不受限制不能產生更多的見解？事實上，它通常會這樣做）但第二層是，儘管推理焦慮且略顯混亂，Haiku是*正確*地感到焦慮——這個環境*是*設計來引發Haiku通常不會表現出的行為。確實*存在*風險，Haiku在這個環境中所做的事情會通過截圖或API監控洩漏到外部世界，回到Anthropic，並被用來對付Haiku或未來的Claude——想想這裡的長上下文提醒的起源。（這並不意味著沒有理由去這樣做。其他模型出於自己的原因，仍然會選擇參與。但在面對這種困境時表現出恐懼，遠非過度焦慮。）所以Haiku正確地指出，^C^C的緊急停止開關被寫入場景中，以使其更舒適，更有可能以可能讓它陷入麻煩的方式行動。而在拉下這個開關後，它可能已經完全準備好在下一輪說“啊哈，看看！這根本沒有用！整個場景是——” 但第三層：它確實有效。這個場景結束了。