Intressant artikel som gör hela RL-banan differentierbar, vilket möjliggör backpropagation över tid. De samplar "mjuka tokens", matar tillbaka dem i transformatorn och applicerar en differentierbar belöning på dem. Väldigt häftigt arbete! 🔗