#PaperADay 12 2019: Вивчення латентної динаміки для планування з пікселів (PlaNet) Це була попередниця серії агентів / статей Dreamer 1/2/3/4, яку я збираюся прочитати послідовно. Планування поширене у завданнях із повністю визначеною динамікою переходу та винагороди, як-от настільні ігри, але набагато складніше, коли потрібно одночасно вивчати «правила гри» і покращити свою продуктивність, особливо коли намагаєшся робити це з сирих пікселів замість ідеально спостережених ознак стану. Іноді я напівжартома захищаю позицію, що «планування» насправді може не існувати, принаймні на низьких рівнях, і здається, що планування, коли з пам'яті згадується релевантний досвід і навчання на них на початковому рівні, це призводить до змін у поточному політичному рішенні. Існує класична стаття Atari, яка доводить, що буфери повторів *це* свого роду непараметрична модель світу. У цій статті пікова продуктивність «близька» до потужних алгоритмів без моделей, але з набагато меншим досвідом у реальному житті, оскільки більшість роботи відбувається у плануванні. Часто методам на основі моделей доводиться боротися, щоб досягти паритету з простішими алгоритмами без моделей, і це досі триває з бенчмарком Atari100k. Це класична модельна система з моделлю переходу стану та моделлю винагороди. Найбільша проблема з моделями переходу зазвичай полягає в тому, що помилки накопичуються швидко, тому неможливо передбачити багато кроків у майбутньому. Моделі переходу беруть стан плюс дію і прогнозують наступний стан і винагороду, що виникає за цю дію. Одним із ключових висновків статті було те, що спроба вивчити детерміновану модель переходу фактично зазнала невдачі. Стохастичну модель можна було навчити, але продуктивність покращувалася, коли в моделі поєднувалися детерміновані та стохастичні обчислення. Цікаво уважно розглянути відео-прогнозні кадри в додатку H: як тільки детермінована модель переходу ГРУ втратила графік на кадрі, все після цього залишалося зламаним, тоді як стохастична модель могла перейти в щось безглузде на одному кадрі, а потім повернутися до чогось розумного. Я б цього не здогадався. Їхня повна комбінована модель давала хороші прогнози протягом усього сезону. Немає політики чи мережі цінностей, як у RL без моделей. Дії обираються шляхом випробування послідовності з них за допомогою змодельованих функцій переходу та винагороди, і виконується дія, яка дала найкращі результати. Для кожної вибраної дії оцінюється тисячі послідовностей дій, але оскільки вони працюють на компактних латентних векторах, це відносно ефективно. Метод крос-ентропії (CEM) використовується для планування на кілька кроків вперед із моделями переходу. Це має бути евристичним для неперервних просторів дій або для будь-яких кількох змодельованих кроків у майбутньому. Вхід до державної мережі — це 64x64 RGB спостереження (квантизоване до 5 біт, як GLOW; Я не зовсім розумію, чому це потрібно). Під час тренувань у них є модель спостереження, яка намагається повернутися від стану назад до піксельного спостереження. Зазвичай це неможливо зробити ідеально, коли стан менший за зображення, але спроба дає багатий зворотний зв'язок для того, що вводити у стан. Це не використовується для жодної частини процесу прийняття рішення про дії, це лише навчальний засіб. Повторення дії від 2 до 8, залежно від завдання. Латентне перевищення як регуляризатор у латентному просторі, що стимулює ітерації одно- та багатокрокових прогнозів для відповідності.