Este pode ser o meu artigo favorito do ano🤯 Rich Sutton afirma que os métodos atuais de RL não nos levarão ao aprendizado contínuo porque não se acumulam sobre o conhecimento anterior, cada execução começa do zero. Pesquisadores na Suíça introduzem o Meta-RL que pode decifrar esse código. Otimize através de episódios com um objetivo de meta-aprendizagem, que então incentiva os agentes a explorar primeiro e depois explorar. E então refletir sobre falhas anteriores para futuras execuções de agentes. Resultados incríveis e uma leitura incrível de um artigo no geral. Autores: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic