Interessantes Papier, das die gesamte RL-Trajektorie differenzierbar macht, was Rückpropagation über die Zeit ermöglicht. Sie sampeln "weiche Tokens", speisen sie zurück in den Transformer und wenden eine differenzierbare Belohnung auf sie an. Sehr coole Arbeit! 🔗