#PaperADay 14 2022: ОСВОЕНИЕ ATARI С ПОМОЩЬЮ ДИСКРЕТНЫХ МИРОВЫХ МОДЕЛЕЙ (DreamerV2) DreamerV1 в основном был нацелен на задачи непрерывного управления, но также продемонстрировал базовую игру в игры Atari и задачи DMLab. DreamerV2 улучшил модель, так что она достигла передового уровня производительности в 55 играх Atari, а также решила более сложную задачу непрерывного управления с гуманоидом. Это в значительной степени инженерная работа, и я здесь за этим! В приложении C они подводят итоги изменений, которые привели к улучшению производительности, а также (что очень редко в статьях!) список вещей, которые они пробовали, но которые не сработали. Алгоритмы показаны в реальном коде с именами вместо греческих букв. Примечательно, что они используют только 64x64 серые изображения в качестве входных данных, и они были уменьшены с общего разрешения 84x84, используемого DQN, так что это даже не идеальное 64x64 изображение из источника. Это очень размытые входные данные для таких хороших результатов. Мне интересно, улучшит ли использование изображений 128x128xRGB с дополнительным сверточным слоем производительность, или дополнительная детализация усложнит обучение мировой модели. Их главное изменение заключалось в замене латентных переменных в стиле VAE, которые были всего лишь 32 парами средних/дисперсий, на категориальные переменные: 32 переменные из 32 категорий. У них нет окончательной теории, почему это так намного лучше, но они предлагают несколько теорий. Было бы интересно сравнить больше гауссиан с более крупными категориальными выходами. Другим большим алгоритмическим изменением было "KL балансирование", или использование другой скорости обучения для весов приоритета и постериора, так что предсказатель обучается быстрее, чем представление. Совместная оптимизация, по-видимому, была проблематичной для V1. DreamerV1 испытывал трудности с исследованием и все еще имел epsilon-случайное действие поверх стохастической политики действий. Улучшенная регуляризация и модель динамики V2 позволяют им отказаться от дополнительной случайности и полагаться исключительно на политику. Они действительно вносят некоторые существенные изменения в KL-убыток и настройку обучения для непрерывного управления по сравнению с дискретным управлением Atari. Они также увеличили масштаб моделей и использовали активацию ELU повсюду. Их протокол оценки Atari хорош: полное пространство действий с включенными липкими действиями. Результаты достаточно высоки, чтобы они рекомендовали новую метрику: "усеченные средние рекорды" – нормализовать по сравнению с мировым рекордом человека, усечением, если он выше этого, а затем взять среднее по всем играм. Исторические результаты Atari RL сравнивались с "человеческими" результатами, которые изначально были случайными людьми, а затем в конечном итоге профессиональным игроком, но для мощных агентов в режиме 200M кадров эта усеченная рекордная метрика имеет смысл. Во время обучения на более чем 200 миллионов реальных кадров окружающей среды, или 50 миллионов выборов действий с action_repeat 4, было воображено 468 миллиардов латентных состояний, что почти в 10 раз больше опыта, чем модельный агент без обучения увидел бы. Опыт реальной среды обучается партиями по 50 последовательностей по 50 шагов каждая. Последовательности ограничены так, чтобы не пересекать границы эпизодов. При обучении политики и функций ценности воображаемые последовательности разворачиваются на 15 шагов. ...