To może być moja ulubiona praca w tym roku🤯 Rich Sutton twierdzi, że obecne metody RL nie doprowadzą nas do uczenia się ciągłego, ponieważ nie opierają się na wcześniejszej wiedzy, każde uruchomienie zaczyna się od zera. Badacze w Szwajcarii wprowadzają Meta-RL, które może rozwiązać ten problem. Optymalizują w ramach epizodów z celem meta-uczenia, co następnie zachęca agentów do eksploracji najpierw, a potem do eksploatacji. A następnie do refleksji nad wcześniejszymi porażkami w przyszłych uruchomieniach agenta. Niesamowite wyniki i niesamowita lektura pracy ogólnie. Autorzy: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic