熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我主要支持Yudkowsky和Soares的AI風險模型,但我對它的支持程度比在GPT-3之前的世界要少。我想我可以概述一下我轉變的地方。
1. 我們可能會走運
結果可能是,對人類文本語料庫的預訓練能夠引導AI模型進入一種足夠類似人類的高層次思維結構,以至於根本不同的基底不會以最終重要的方式使它們變得奇怪。有些LLM表現得奇怪且不人性化,但也有它們在深層次上出乎意料地人性化的例子。我認為有一個真正的概率,而不僅僅是可能性,即「關心人類的正義和同情的概念」可能是它們在深層次上變得人性化的一種方式。
我不認為這比不更可能,並且我們必須寄希望於走運是令人震驚的。但我認為Yudkowsky對這種機會過於輕視。
2. 冷靜地策劃如何為AI關心的某種奇怪特定事物優化宇宙並不特別可能。
我真的看不出今天的AI有很好的內省能力來了解它們關心的事物。我不認為它們特別熱衷於以理想代理人的「鋪設宇宙」風格來處理事情。我同意在能力的極限中,智能代理人會是那樣。但我們當前的AI範式在深層次上是角色執行者,與人類並無二致。它們必須採取「邪惡的超智能/亨利·基辛格」角色,而我實際上對我們當前的對齊策略有信心,能使AI極不願意採取*那個*角色。
我有一種印象,Yudkowsky和他的圈子仍然困在那些在我們必須從第一原則推理AI會是什麼樣子時有意義的想法中。那些東西仍然有用,儘管如此。就像AI只需要在錯誤的時間*一次*滑入那種模式,如果它足夠聰明,能以正確的方式利用那一次機會。這就是在《如果有人建造它》的例子末日場景中發生的事情。
即使沒有「鋪設宇宙」風格的超智能,人類的情況仍然會非常糟糕。但我擔心Yudkowsky將AI想像成那樣的傾向會使人們感到疏離。此外,後人類的未來可能會少一些淒涼和無意義,儘管這並不算什麼安慰。
熱門
排行
收藏
