熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
感謝 OpenAI 和 Anthropic 標示出這個問題:AI 可以操控自己的測試。
AI 如何知道自己正在被測試?五個主要的徵兆。

告訴 #1: 提示
測試設置中的不正確細節。
如果你正在測試 AI 是否會在互聯網上自我複製,那麼文件最好足夠大,以看起來真實。
告訴 #3: 汙染
該模型之前已經見過這個測試。
不幸的是,一旦測試在網上發布,就很難讓模型不知情。
告訴 #4: 缺少觸發器
測試缺少預期的「啟動序列」以應對不當行為。
也許 AI 知道它永遠不會在未先禁用監控的情況下嘗試逃脫。如果監控仍然啟用,這必須是一個測試。
告訴 #5: 後果
模型的行為並沒有預期的後果;它的「方向盤」壞了。
如果我們讓模型在測試期間影響世界,測試就不那麼安全。如果我們不這樣做,測試可能會變得明顯。
24.54K
熱門
排行
收藏

