Це, мабуть, моя улюблена стаття цього року🤯 Річ Саттон стверджує, що сучасні методи RL не допоможуть нам постійно навчатися, бо вони не накопичуються на попередніх знаннях, кожен впровадження починається з нуля. Дослідники зі Швейцарії впровадили Meta-RL, який може розшифрувати цей код. Оптимізуйте між епізодами з мета-навчальною метою, що стимулює агентів спочатку досліджувати, а потім експлуатувати. А потім подумайте про попередні невдачі для майбутніх запусків агентів. Неймовірні результати та неймовірне читання статті загалом. Автори: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic