C'est peut-être mon article préféré de l'année🤯 Rich Sutton affirme que les méthodes RL actuelles ne nous mèneront pas à l'apprentissage continu car elles ne s'appuient pas sur les connaissances précédentes, chaque déploiement commence à zéro. Des chercheurs en Suisse introduisent le Meta-RL qui pourrait résoudre ce problème. Optimiser à travers les épisodes avec un objectif d'apprentissage méta, ce qui incite ensuite les agents à explorer d'abord puis à exploiter. Et ensuite réfléchir sur les échecs précédents pour les futures exécutions des agents. Des résultats incroyables et une lecture incroyable de l'article dans l'ensemble. Auteurs : @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic