一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

感謝 OpenAI 和 Anthropic 標示出這個問題：AI 可以操控自己的測試。 AI 如何知道自己正在被測試？五個主要的徵兆。

告訴 #1: 提示測試設置中的不正確細節。如果你正在測試 AI 是否會在互聯網上自我複製，那麼文件最好足夠大，以看起來真實。

告訴 #3: 汙染該模型之前已經見過這個測試。不幸的是，一旦測試在網上發布，就很難讓模型不知情。

告訴 #4: 缺少觸發器測試缺少預期的「啟動序列」以應對不當行為。也許 AI 知道它永遠不會在未先禁用監控的情況下嘗試逃脫。如果監控仍然啟用，這必須是一個測試。

告訴 #5: 後果模型的行為並沒有預期的後果；它的「方向盤」壞了。如果我們讓模型在測試期間影響世界，測試就不那麼安全。如果我們不這樣做，測試可能會變得明顯。

24.54K

熱門

排行

收藏