Makalah menarik yang membuat seluruh lintasan RL dapat dibedakan, memungkinkan propagasi balik dari waktu ke waktu. Mereka mengambil sampel "token lunak", memasukkannya kembali ke dalam transformator, dan menerapkan hadiah yang dapat dibedakan di atasnya. Pekerjaan yang sangat keren! 🔗