#PaperADay 15 2024年:多様な領域を世界モデルでマスターする (ドリーマーV3) 最新のDreamerモデルを150以上の多様なタスクに適用し、多くで最先端のスコアを獲得していますが、特にMinecraftのダイヤモンド採掘に応用しており、これは多くの強化学習タスクよりもはるかに難しい挑戦です。 報道では「AIがMinecraftを解決する」と報じましたが、誤解を招きます。3,000万(20Hz)の環境ステップ(17日間ノンストップ)を経て、ダイヤモンドを採掘しました。Atariのゲームは人間と同じピクセルや操作でプレイしますが、これはインベントリやステータスがモデルに直接表示される改良されたインターフェースと、カテゴリ別のアクションスペースで、インベントリやクラフト画面をマウス操作しません。 採掘は、ドリーマーが確率アクションポリシーを使っているため、通常の数秒ホールドではなくインスタントブレイクに修正されなければなりませんでした。これは数百フレーム連続でボタンを押し続けることがほぼ不可能だからです。同様に、ジャンプアクションは複数フレームのホールドが必要だったため、瞬時に作られました。 それでも、リアル・リプレイスのエージェントが人間のプレイヤーからの模倣学習を使わずにここまで来たのは初めてであり、他のすべてのベンチマークでも大幅な改善が見られました。 改良は主にエンジニアリングの作業であり、まったく異なるアーキテクチャではありませんでした。V2の「試したけどうまくいかなかったこと」のセクションを見逃していました。 これらの変更により、モデルパラメータを12Mから400Mに収益的にスケールし、再生率を環境レートの1倍から64倍にまで拡大できるようになりました。 論文用語は他の強化学習論文に近く、「ディスカウント予測器」ではなく「継続予測子」や政策ネットワークにPiを使うことなどです。図解も改善されました。 共同学習モデルでは、表現モデルが予測を容易にするために退化しようとする一方で、その後の状態を予測する際に有用であるという緊張関係があります。彼らが使うトリックの一つに「フリービット」があり、あるレベル以下では損失をクリップしてゼロまで追い込もうとしないようにし、敵軍が無抵抗で前進できるようにします。 カテゴリ分布では、KL損失のスパイクを避けるために1%のラベル平滑化が使われています。既存の分布の上に一様分布を混ざることを「ユニミックス」と呼びます。これはラベルスムージングと比べて標準的ではありませんが、むしろより良い用語と言えるでしょう。 彼らは批評家に対してMSE回帰の代わりに2ホットのカテゴリ値を使用しますが、他の多くの実装とは異なり、線形間隔ではなく指数的に間隔を空けるビンを使って数桁の範囲をカバーできます。彼らは、正・負の両方の値の大きく異なる値を扱えるように、symlog() / symexp() という関数を定義しています。MuZeroやMuesliで使われている類似の非線形変換よりも効果的だと報告されています。 これは注意が必要だったようです。「桁違いにまたがるビンでのソフトマックス分布の予想予測を計算するには、和順が重要であり、正ビンと負ビンは小さいビンから大きいビンまで別々に合計し、その後加算すべきです。」 報酬モデルと批判モデルの最終層は、訓練開始時に大きな偽値を避けるため、ランダムに初期化されるのではなくゼロ初期化されています。 価値関数のターゲットモデルは周期的コピーではなくEMAとなりました。 価値関数のスケールに関わらず、政策勾配から同じ量の探求を得るために、指数関数的に間隔を空けた(非常に大きな)リターンを有界範囲までスケールさせ、例外を除外する5%から95%の範囲のみを考慮します。 ...