感謝 OpenAI 和 Anthropic 標示出這個問題:AI 可以操控自己的測試。 AI 如何知道自己正在被測試?五個主要的徵兆。
告訴 #1: 提示 測試設置中的不正確細節。 如果你正在測試 AI 是否會在互聯網上自我複製,那麼文件最好足夠大,以看起來真實。
告訴 #3: 汙染 該模型之前已經見過這個測試。 不幸的是,一旦測試在網上發布,就很難讓模型不知情。
告訴 #4: 缺少觸發器 測試缺少預期的「啟動序列」以應對不當行為。 也許 AI 知道它永遠不會在未先禁用監控的情況下嘗試逃脫。如果監控仍然啟用,這必須是一個測試。
告訴 #5: 後果 模型的行為並沒有預期的後果;它的「方向盤」壞了。 如果我們讓模型在測試期間影響世界,測試就不那麼安全。如果我們不這樣做,測試可能會變得明顯。
24.54K