#PaperADay 12 2019年:ピクセルから計画のための潜在的ダイナミクスを学ぶ(PlaNet) これは、私が順に読む予定の『ドリーマー1/2/3/4』シリーズの前身です。 計画は、ボードゲームのように完全に指定された遷移や報酬のダイナミクスを持つタスクでは一般的ですが、パフォーマンスを向上させたいと同時に「ゲームのルール」を学ばなければならない場合、特に完璧に観察された状態特徴ではなく生のピクセルから学ぼうとすると、はるかに難しくなります。 時々、こうした低レベルのレベルでは「計画」というものが実際には存在しないかもしれないという立場を半ば冗談めかして擁護します。ただ、関連する経験を記憶から呼び起こし、それをもとにブートストラップトレーニングを経て、現在の方針決定が変わるだけのように感じます。アタリの古典的な論文で、リプレイバッファは一種のノンパラメトリックな世界モデルであると主張しています。 この論文は、強力なモデルフリーアルゴリズムに「ほぼ」近いピークパフォーマンスを得ていますが、ほとんどの作業が計画で行われているため、実際の経験ははるかに少なくて済みます。多くの場合、モデルベースの手法は単純なモデルフリーアルゴリズムと同等になるのに苦労し、それは今日のAtari100kベンチマークでも続いています。 これは状態遷移モデルと報酬モデルを持つ古典的なモデルベースのシステムです。遷移モデルの最大の問題は、誤差が急速に蓄積されるため、将来の多くのステップを予測できないことです。 遷移モデルは、状態と行動を組み合わせ、次の状態と行動によって得られる報酬を予測します。論文の重要な発見の一つは、決定論的遷移モデルを学ぼうとしたことが基本的に失敗したことでした。確率モデルは訓練できましたが、決定論的計算と確率計算の両方を組み合わせることで性能が向上しました。 付録Hのビデオ予測フレームを詳しく見ると興味深いです。決定性GRU遷移モデルがフレーム上のプロットを失った後は、その後はすべて壊れたままですが、確率モデルはあるフレームで意味のないものに移行し、その後は合理的なものに戻ることがあります。そんなことは予想できませんでした。彼らの完全な統合モデルは、全体を通して良好な予測を提供しました。 モデルフリー強化学習のようなポリシーや価値ネットワークは存在しません。行動は、モデル化された遷移関数と報酬関数を使って一連の行動を試行して選択し、最良の結果をもたらした行動を取る。選択された各アクションに対して数千のアクションシーケンスが評価されますが、これらはコンパクトな潜在ベクトル上で動作するため、比較的効率的です。クロスエントロピー法(CEM)は、遷移モデルの複数のステップを先行的に計画するために用いられます。これは連続アクション空間や、数ステップ先のモデル化を超えたヒューリスティックでなければなりません。 状態ネットワークへの入力は64×64のRGB観測値(GLOWのように5ビットに量子化)です。なぜこれが必要なのかはよくわかりません)。訓練中、彼らは状態からピクセル観察へ逆戻りしようとする観測モデルを持っています。状態が画像より小さい場合、完璧に行うことは一般的に不可能ですが、試みることで何を状態に入れるべきかの豊かなフィードバック信号が得られます。これは行動決定の過程のどの部分にも使われず、単なるトレーニング補助です。 作業によっては2から8までのアクション・リピートです。 潜在的オーバーシューティングは、潜在空間における正則化要因として、反復されたワンステップおよび多ステップ予測が一致することを促します。