Article intéressant qui rend l'ensemble de la trajectoire RL différentiable, permettant la rétropropagation dans le temps. Ils échantillonnent des "soft tokens", les réinjectent dans le transformateur et appliquent une récompense différentiable sur eux. Très beau travail ! 🔗