Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 12
2019: Изучение скрытой динамики для планирования на основе пикселей (PlaNet)
Это был предшественник серии агентов RL / статей Dreamer 1/2/3/4, которые я собираюсь читать по порядку.
Планирование распространено в задачах с полностью определенными динамиками переходов и вознаграждений, таких как настольные игры, но это гораздо более сложная задача, когда вам нужно одновременно изучать "правила игры", пытаясь улучшить свою производительность, особенно когда вы пытаетесь сделать это на основе сырых пикселей, а не идеально наблюдаемых характеристик состояния.
Иногда я полушутя защищаю позицию, что "планирование" может на самом деле не существовать, по крайней мере на низких уровнях, как этот, и это просто кажется планированием, когда соответствующий опыт вызывается из памяти, и обучение на нем приводит к изменениям в текущем решении по политике. Существует классическая статья по Atari, которая утверждает, что буферы воспроизведения *являются* своего рода непараметрической моделью мира.
Эта статья достигает пиковых результатов "близких к" сильным алгоритмам без модели, но с гораздо меньшим количеством необходимого реального опыта, потому что большая часть работы происходит в планировании. Часто методы на основе модели должны бороться за достижение паритета с более простыми алгоритмами без модели, и это все еще происходит с эталоном Atari100k сегодня.
Это классическая система на основе модели с моделью переходов состояния и вознаграждения. Самая большая проблема с моделями переходов обычно заключается в том, что ошибки накапливаются быстро, поэтому вы не можете предсказать многие шаги в будущее.
Модели переходов принимают состояние плюс действие и предсказывают следующее состояние и вознаграждение, которое возникает в результате выполнения действия. Одним из ключевых выводов статьи было то, что попытка изучить детерминированную модель переходов в основном провалилась. Стохастическая модель могла быть обучена, но производительность улучшилась, когда они объединили как детерминированные, так и стохастические вычисления в модели.
Внимательно рассматривая кадры предсказания видео в приложении H, интересно: как только детерминированная модель переходов GRU потеряла нить на кадре, все последующее осталось сломанным, в то время как стохастическая модель могла перейти в нечто бессмысленное на одном кадре, а затем вернуться к чему-то разумному после этого. Я бы этого не предположил. Их полная комбинированная модель давала хорошие предсказания на протяжении всего времени.
В модели нет сети политики или ценности, как в RL без модели. Действия выбираются путем пробования последовательности действий с использованием смоделированных функций переходов и вознаграждений, и действие, которое привело к наилучшим результатам, принимается. Тысячи последовательностей действий оцениваются для каждого выбранного действия, но поскольку они работают на компактных скрытых векторах, это относительно эффективно. Метод кросс-энтропии (CEM) используется для планирования на несколько шагов вперед с моделями переходов. Это должно быть эвристическим для непрерывных пространств действий или для любых более чем нескольких смоделированных шагов в будущее.
Входом в сеть состояния является наблюдение RGB размером 64x64 (квантованное до 5 бит, как GLOW; я не совсем понимаю, почему это необходимо). Во время обучения у них есть модель наблюдения, которая пытается вернуться от состояния к пиксельному наблюдению. Это обычно невозможно сделать идеально, когда состояние меньше изображения, но попытка этого предоставляет богатый сигнал обратной связи о том, что следует включить в состояние. Это не используется для какой-либо части процесса принятия решения по действиям, это просто вспомогательное средство для обучения.
Повторение действия от 2 до 8, в зависимости от задачи.
Скрытое превышение в качестве регуляризатора в скрытом пространстве, который поощряет итеративные одношаговые и многошаговые предсказания совпадать.
Топ
Рейтинг
Избранное
