Det här kan vara min favoritartikel för året🤯 Rich Sutton hävdar att nuvarande RL-metoder inte kommer att leda oss till kontinuerligt lärande eftersom de inte bygger på tidigare kunskap, varje utrullning börjar från början. Forskare i Schweiz introducerar Meta-RL som kanske knäcker den koden. Optimera över avsnitt med ett meta-lärandemål, vilket sedan uppmuntrar agenter att utforska först och sedan utnyttja. Och reflektera sedan över tidigare misslyckanden för framtida agentuppdrag. Otroliga resultat och en otrolig läsning av en artikel överlag. Författare: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic