Это может быть моя любимая статья года🤯 Рич Саттон утверждает, что текущие методы RL не приведут нас к непрерывному обучению, потому что они не накапливают предыдущие знания, каждый запуск начинается с нуля. Исследователи в Швейцарии представляют Meta-RL, который может разгадать эту загадку. Оптимизируйте на протяжении эпизодов с мета-объективом обучения, который затем побуждает агентов сначала исследовать, а затем использовать. А затем размышлять о предыдущих неудачах для будущих запусков агентов. Невероятные результаты и невероятное чтение статьи в целом. Авторы: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic