Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: ОПАНУВАННЯ ATARI З ДИСКРЕТНИМИ СВІТОВИМИ МОДЕЛЯМИ
(DreamerV2)
DreamerV1 був орієнтований переважно на завдання безперервного керування, але також демонстрував базову гру в ігри Atari та завдання DMLab. DreamerV2 покращив модель так, щоб вона досягла найсучаснішої продуктивності на сеті Atari з 55 ігор, а також вирішила складніше завдання безперервного керування з гуманоїдною ходьбою.
Це справді інженерна робота, і я тут за неї! У додатку C вони підсумовують зміни, які призвели до покращення продуктивності, а також (дуже рідко в наукових роботах!) перелік речей, які вони спробували, але які не спрацювали. Алгоритми показані у реальному коді з іменами замість грецьких літер.
Варто зазначити, що вони використовують лише 64x64 зображення в відтінках сірого як вхід, і вони були зменшені порівняно з поширеною роздільною здатністю 84x84, яку використовує DQN, тож це навіть не ідеальне зображення 64x64 від джерела. Це дуже розмиті введення для таких хороших результатів. Мені цікаво, чи покращить використання зображень 128x128xRGB з додатковим конвенційним шаром продуктивність, чи додаткова деталізація ускладнить навчання світовій моделі.
Їхньою найбільшою зміною стало заміна гаусових латентних у стилі VAE, які складалися лише з 32 пар середнього/змінного, на категоріальні змінні: 32 змінні з 32 категорій. Вони не мають остаточної теорії, чому це так краще, але пропонують кілька теорій. Було б цікаво порівняти більше гаусів із більшими категоріальними виходами.
Іншою великою алгоритмічною зміною було «балансування KL», тобто використання іншої швидкості навчання для попередніх і запостріальних ваг, щоб предиктор тренувався швидше за репрезентацію. Оптимізація з'єднання, очевидно, була проблемною для V1.
DreamerV1 мав труднощі з дослідженням, але все одно мав епсилон-випадкову дію поверх політики стохастичної дії. Покращена модель регуляризації та динаміки V2 дозволяє їм відмовитися від зайвої випадковості і покладатися виключно на політику.
Вони вносять суттєві зміни в налаштування втрат KL і тренування для завдань безперервного керування проти дискретного керування Atari.
Вони також масштабували моделі і використовували активацію ELU всюди.
Їхній протокол оцінки Atari хороший: повний простір дій з увімкненими закріпленими діями. Оцінки настільки високі, що рекомендують новий показник: середнє значення «обрізаного рекорду» — нормалізувати до світового рекорду людини, обрізати, якщо він вище, потім брати середнє значення всіх ігор. Історичні результати Atari RL порівнювали з «людськими» результатами, які спочатку були випадковими людьми, а згодом професійним геймером, але для потужних агентів у режимі кадрів 200 м цей обрізаний рекордний показник має сенс.
Під час тренування було уявлено понад 200 мільйонів кадрів реального середовища, або 50 мільйонів виборів дій із action_repeat 4 468 мільярдів прихованих станів, що майже в 10 разів перевищує досвід, який мав би агент без моделі.
Досвід у реальному середовищі тренується групами по 50 послідовностей по 50 кроків кожна. Послідовності обмежені так, щоб не перетинати межі епізодів.
Під час тренування функцій політики та значення уявні послідовності розгортаються на 15 кроків.
Значення тренуються за MSE, а не за категоріями. Використовується традиційна цільова мережа значення, яка оновлюється кожні 100 кроків градієнту.
Найкращі
Рейтинг
Вибране
