#PaperADay 15 2024: Осваиваем разнообразные области через мировые модели (DreamerV3) Применяет последнюю модель Dreamer к более чем 150 разнообразным задачам, достигая передовых результатов по многим из них, но особенно примечательно, что она применяется к добыче алмазов в Minecraft, что является значительно более сложной задачей, чем большинство задач RL. Пресса сообщила об этом как о "ИИ решает Minecraft", что вводит в заблуждение. После 30 миллионов (20 Гц) шагов в среде (17 дней без остановки) он добыл алмаз. В отличие от игр Atari, которые играются с теми же пикселями и управлениями, что и у человека, это модифицированный интерфейс с инвентарем и статистикой, представленными непосредственно модели, и категориальным пространством действий – без перемещения по инвентарю и экранам крафта. Добыча была изменена на мгновенное разрушение вместо обычного многосекундного удерживания кнопки добычи, потому что Dreamer использует стохастические политики действий, которые почти не способны удерживать кнопку нажатой на протяжении сотен кадров подряд. Аналогично, действие прыжка требовало многократного удерживания кадров, поэтому оно было сделано мгновенным. Тем не менее, это был первый случай, когда агент RL добрался так далеко, не используя имитационное обучение от человеческих игроков, и значительные улучшения были достигнуты и по всем другим бенчмаркам. Улучшения в основном были инженерными доработками, а не совершенно другими архитектурами. Мне не хватало раздела "вещи, которые мы пробовали, но не сработали" из V2. С изменениями они могут прибыльно масштабировать модель с 12M до 400M параметров и коэффициент воспроизведения с 1 до 64 раз по сравнению с темпом среды. Терминология в статье теперь ближе к другим статьям RL: "Предсказатель продолжения" вместо "предсказателя скидки" и использование Pi для политических сетей. Диаграммы улучшены. С совместно обученными моделями существует напряжение между моделью представления, которая хочет деградировать, чтобы упростить предсказание, и полезностью для предсказания следующих состояний. Один из приемов, которые они используют, - это "свободные биты", обрезка потерь, когда они ниже определенного уровня, чтобы они не пытались снизить их до нуля, позволяя противодействующей силе затем продвигаться без помех. Для категориальных распределений они используют 1% сглаживания меток на категориальных распределениях, чтобы избежать всплесков в KL-потере. Они называют это "unimix" для смешивания равномерного распределения поверх существующего распределения. Это нестандартно (в отличие от сглаживания меток), но, возможно, лучшее терминология. Они используют двухгорячее категориальное значение вместо регрессии MSE для критика, но в отличие от большинства других реализаций, используют экспоненциально распределенные корзины вместо линейно распределенных, чтобы охватить несколько порядков величины. Они определяют функции symlog() / symexp(), чтобы позволить сетям обрабатывать широко варьирующиеся значения как в положительном, так и в отрицательном диапазонах. Сообщается, что это работает лучше, чем аналогичная нелинейная трансформация, используемая в MuZero и Muesli. Это, по-видимому, требовало некоторой осторожности: "Для вычисления ожидаемого предсказания распределения softmax под корзинами, которые охватывают многие порядки величины, порядок суммирования имеет значение, и положительные и отрицательные корзины должны суммироваться отдельно, от малых к большим корзинам, а затем добавляться." Последний слой моделей вознаграждения и критика инициализируется нулями вместо случайной инициализации, чтобы избежать потенциально больших ложных значений в начале обучения. Целевая модель для функции ценности теперь является EMA вместо периодической копии. ...