Questo potrebbe essere il mio articolo preferito dell'anno🤯 Rich Sutton afferma che i metodi di RL attuali non ci porteranno all'apprendimento continuo perché non si basano sulla conoscenza precedente, ogni rollout inizia da zero. I ricercatori in Svizzera introducono il Meta-RL che potrebbe risolvere questo problema. Ottimizzare attraverso gli episodi con un obiettivo di meta-apprendimento, che poi incentiva gli agenti a esplorare prima e poi sfruttare. E poi riflettere sui fallimenti precedenti per i futuri tentativi degli agenti. Risultati incredibili e lettura straordinaria di un articolo nel complesso. Autori: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic