Dette kan være min favorittavis i år🤯 Rich Sutton hevder at dagens RL-metoder ikke vil føre oss til kontinuerlig læring fordi de ikke bygger på tidligere kunnskap, hver utrulling starter fra bunnen av. Forskere i Sveits introduserer Meta-RL, som kanskje kan knekke denne koden. Optimaliser på tvers av episoder med et meta-læringsmål, som deretter motiverer agenter til å utforske først og deretter utnytte. Og så reflektere over tidligere fiaskoer for fremtidige agentløp. Utrolige resultater og en utrolig lesning av en artikkel totalt sett. Forfattere: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic