Zajímavý článek, který umožňuje diferencovatelnou celou trajektorii RL, což umožňuje zpětné šíření v čase. Vzorkují "měkké tokeny", vracejí je zpět do transformátoru a aplikují na ně diferencovatelnou odměnu. Opravdu skvělá práce! 🔗