O lucrare interesantă care face ca întreaga traiectorie RL să fie diferențiabilă, permițând propagarea înapoi în timp. Ei eșantionează "jetoane soft", le introduc înapoi în transformator și aplică o recompensă diferențiabilă peste ele. Foarte tare! 🔗