Interesujący artykuł, który sprawia, że cała trajektoria RL jest różniczkowalna, co umożliwia propagację wsteczną w czasie. Próbkują "miękkie tokeny", wprowadzają je z powrotem do transformera i stosują różniczkową nagrodę na nich. Bardzo fajna praca! 🔗