Tüm RL yörüngesini diferansiyel kılan ilginç bir makale, böylece zaman içinde geriye yayılmayı mümkün kılar. "Yumuşak tokenlar" örneği alıyor, onları transformatora geri besliyor ve üzerlerine diferansiyel bir ödül uygularlar. Çok güzel bir iş! 🔗