トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022年:離散ワールドモデルでアタリをマスターする
(ドリーマーV2)
DreamerV1は主に連続制御タスクを対象としていましたが、AtariのゲームやDMLabタスクの基本的なプレイも示していました。DreamerV2はモデルを改良し、55ゲーム用のAtariスイートで最先端の性能を実現し、より難しいヒューマノイドウォークの連続制御タスクも解決しました。
これはまさに工学論文であり、私はそれを楽しみにしています!付録Cでは、パフォーマンス向上につながった変更点をまとめており、論文では非常に稀に試みてうまくいかなかったことのリストも記載しています。アルゴリズムはギリシャ文字の代わりに名前付きの実際のコードで示されています。
注目すべきは、入力として64x64のグレースケール画像のみを使用しており、それらはDQNで一般的な84x84解像度からダウンスケールされているため、ソースからの完璧な64x64画像ですらありません。そんなに良いスコアなのに、入力がとてもぼやけています。128x128xRGB画像に追加の変換レイヤーを加えることでパフォーマンスが向上するのか、それとも詳細が増えることでワールドモデルの学習が難しくなるのか気になっています。
最大の変更点は、VAEスタイルのガウス潜伏変数を、平均/変量対32のカテゴリーに分類変数(32変数)で置き換えたことです。なぜこれほど優れているのか決定的な理論は持っていませんが、いくつかの仮説を提示しています。より多くのガウスをより大きなカテゴリカル出力と比較できたのは興味深いでしょう。
もう一つの大きなアルゴリズムの変更は「KLバランス」で、事前重みと後重みに異なる学習率を使い、予測変数の学習速度が表現よりも速く訓練されるようにしました。このジョイント最適化はV1では明らかに問題があったようです。
DreamerV1は探索に苦戦し、確率的行動ポリシーに加えてイプシロンランダムな行動も残っていました。V2の改良された正則化と動力学モデルにより、余分なランダム性を排除し、ポリシーのみに頼ることができます。
連続制御タスクと離散的なAtari制御タスクのクロック損失とトレーニングセットアップにかなりの変更を加えています。
また、モデルを拡大し、あらゆる場所でELU活性化を導入しました。
彼らのAtari評価プロトコルは良好です。フルアクションスペースにスティッキーアクションが有効です。スコアは十分に高いため、新しい指標を推奨しています。「クリッピング記録平均」スコアです。人類の世界記録に正規化し、それ以上ならクリッピングし、その後全試合の平均を取る方法です。歴史的なAtari RLの結果は「人間」スコアと比較されており、これはもともとランダムな人で、最終的にはプロのゲーマーでしたが、2億フレーム帯の強力なエージェントにとっては、この切り離された記録指標には妥当です。
訓練中、2億以上の実環境フレーム、または4,4,680億の潜在状態を用いて5,000万アクションaction_repeat選択を想像し、モデルフリーエージェントが経験したほぼ10倍の経験が得られました。
実際の環境体験は、50回ずつ50ステップずつのバッチで訓練されます。シーケンスはエピソード境界を越えないよう制約されています。
ポリシー関数と値関数の訓練時には、虚数列が15ステップにわたって展開されます。
値はMSEで訓練されており、カテゴリカルではありません。従来の価値ターゲットネットワークが使用され、100段階ごとに更新されます。
トップ
ランキング
お気に入り
