#PaperADay 15 2024:通过世界模型掌握多样化领域 (DreamerV3) 将最新的Dreamer模型应用于150多个多样化任务,在许多任务上获得了最先进的分数,尤其是在Minecraft中挖掘钻石,这比大多数强化学习任务要困难得多。 媒体报道为“AI解决了Minecraft”,这有些误导。在3000万(20赫兹)环境步骤(连续17天)后,它挖掘出了一颗钻石。与使用人类相同的像素和控制的Atari游戏不同,这是一种修改过的界面,库存和统计信息直接呈现给模型,并且有一个分类动作空间——不需要在库存和制作界面中移动鼠标。 挖掘过程必须修改为即时破坏,而不是正常的多秒按住挖掘按钮,因为Dreamer使用随机动作策略,几乎无法连续按住按钮数百帧。同样,跳跃动作需要多帧的按住,因此也被修改为即时。 尽管如此,这是一个强化学习代理首次在没有使用人类玩家模仿学习的情况下走得如此远,并且在所有其他基准上也取得了显著的改进。 这些改进主要是工程上的磨练,而不是完全不同的架构。我错过了V2中“我们尝试过但没有成功的事情”部分。 通过这些变化,他们可以将模型从1200万参数有效扩展到4亿参数,并将重放比率从1倍扩展到环境速率的64倍。 论文术语现在更接近其他强化学习论文:“继续预测器”而不是“折扣预测器”,并使用Pi表示策略网络。图表得到了改善。 在联合训练的模型中,表示模型希望退化以简化预测与对后续状态预测的有用性之间存在张力。他们使用的一个技巧是“自由位”,在损失低于某个水平时截断损失,以便它们不会试图驱动到零,从而允许对立力量在没有阻碍的情况下取得进展。 对于分类分布,他们在分类分布上使用1%的标签平滑,以避免KL损失中的尖峰。他们称之为“unimix”,即在现有分布上混合均匀分布。这是非标准的(与标签平滑相比),但可以说是更好的术语。 他们使用双热分类值而不是均方误差回归用于评论家,但与大多数其他实现不同,使用指数间隔的区间而不是线性间隔,以便覆盖几个数量级。他们定义了函数symlog()/symexp(),以允许网络处理正负范围内广泛变化的值。据报道,这比MuZero和Muesli中使用的类似非线性变换效果更好。 这显然需要一些注意:“为了计算跨越多个数量级的区间下softmax分布的期望预测,求和顺序很重要,正负区间应分别从小到大求和,然后相加。” 奖励和评论家模型的最终层是零初始化的,而不是随机初始化,以避免在训练开始时出现潜在的大的虚假值。 价值函数的目标模型现在是EMA,而不是周期性复制。 ...