熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
#PaperADay 15
2024:透過世界模型掌握多樣化領域
(DreamerV3)
將最新的Dreamer模型應用於150多個多樣化任務,在許多任務上獲得了最先進的分數,但最值得注意的是,將其應用於在Minecraft中挖掘鑽石,這是一個比大多數強化學習任務更具挑戰性的挑戰。
媒體報導稱這是「AI解決了Minecraft」,這是誤導性的。在3000萬(20赫茲)環境步驟(持續17天)後,它挖掘出了一顆鑽石。與Atari遊戲不同,後者是用人類使用的相同像素和控制來玩的,這是一個修改過的介面,庫存和統計數據直接呈現給模型,並且有一個類別動作空間——不需要在庫存和製作畫面中滑鼠操作。
挖掘必須修改為瞬間破壞,而不是正常的多秒按住挖掘按鈕,因為Dreamer使用隨機動作策略,幾乎無法連續按住一個按鈕數百幀。同樣,跳躍動作需要多幀的按住,因此也被設置為瞬間。
儘管如此,這是第一個強化學習代理在沒有使用人類玩家模仿學習的情況下達到這樣的進展,並且在所有其他基準上也取得了顯著的改進。
這些改進主要是工程上的磨練,而不是完全不同的架構。我錯過了V2中「我們嘗試過但沒有成功的事情」部分。
隨著這些變化,他們可以將模型從1200萬擴展到4億參數,並將重播比率從1擴展到環境速率的64倍。
論文術語現在更接近其他強化學習論文:使用「繼續預測器」而不是「折扣預測器」,並使用Pi作為策略網絡。圖表也得到了改善。
在共同訓練的模型中,表示模型希望退化以簡化預測,並且對於預測後續狀態是有用的之間存在緊張關係。他們使用的技巧之一是「自由位元」,當損失低於某個水平時剪裁損失,以便不會試圖驅動到零,讓對立力量能夠不受阻礙地進展。
對於類別分佈,他們在類別分佈上使用1%的標籤平滑,以避免KL損失中的尖峰。他們稱這為「unimix」,用於在現有分佈上混合均勻分佈。這是非標準的(與標籤平滑相比),但可以說是更好的術語。
他們使用兩熱類別值而不是MSE回歸作為評論者,但與大多數其他實現不同,使用指數間隔的區間而不是線性間隔,以便能夠涵蓋幾個數量級。他們定義了函數symlog()/symexp(),以允許網絡處理正負範圍內的廣泛變化值。據報導,這比MuZero和Muesli中使用的類似非線性變換效果更好。
這顯然需要一些注意:「為了計算跨越多個數量級的區間下softmax分佈的預期預測,總和的順序很重要,正負區間應該分開從小到大相加,然後再相加。」
獎勵和評論模型的最終層是零初始化的,而不是隨機初始化,以避免在訓練開始時出現潛在的大虛值。
價值函數的目標模型現在是EMA,而不是定期複製。
...
熱門
排行
收藏
