Artigo interessante que torna toda a trajetória do RL diferenciável, permitindo a retropropagação ao longo do tempo. Eles amostram "soft tokens", os alimentam de volta no transformador e aplicam uma recompensa diferenciável sobre eles. Trabalho muito legal! 🔗