ورقة مثيرة تجعل مسار التعلم المعزز بالكامل قابلا للتفاضل، مما يتيح الانتشار العكسي عبر الزمن. يقومون بأخذ عينات من "الرموز الناعمة"، ثم إعادتها إلى المحول، ويطبقون عليها مكافأة قابلة للتفريق. عمل رائع جدا! 🔗