📈 şu anda alphaXiv'de trend "∆Belief-RL: Uzun Ufuk Etkileşimi İçsel Kredi Ataması" Uzun ufuklu etkileşimli RL acımasızdır çünkü ödüller seyrektir ve hangi spesifik soruların veya eylemlerin başarıya yol açtığı belirsizdir, bu yüzden ajanlar ya öğrenmez ya da kırılgan sezgisel yöntemler öğrenir. Bunu geliştirmek için, ∆Belief-RL, bir etkileşim gerçek cevaba olan inancını artırdığında bir ajanı ödüllendirerek "merakı"nı doğru bir sonuca olan olasılığını artırarak doğru uzun ufuk öğrenme sinyaline dönüştürür. Bu, doğru soruları sormak için yoğun, adım adım kredi ataması sağlar; böylece temsilciler etkili bilgi arama davranışlarını daha hızlı öğrenir ve çok daha uzun ufuklar + müşteri hizmetleri ve kişiselleştirme gibi gerçek görevlere genelleştirir, böylece çok daha az boşa harcanan etkileşim olur.