Mielenkiintoinen artikkeli, joka tekee koko RL-radan differentioituvaksi, mahdollistaen takaperinteen ajan kuluessa. He ottavat näytteenoton "pehmeistä tokeneista", syöttävät ne takaisin transformeriin ja soveltavat niihin differentioituvan palkkion. Todella siistiä työtä! 🔗