📈 الآن يتصدر الترند على alphaXiv "∆الإيمان-التعلم الواقعي: تعيين الائتمان الجوهري للتفاعل بعيد الأفق" التعلم التفاعلي بعيد الأفق قاس لأن المكافآت قليلة وليس واضحا أي الأسئلة أو الأفعال المحددة سببت النجاح فعليا، لذا إما أن الوكلاء لا يتعلمون أو يتعلمون القواعد الهشة. لتحسين ذلك، يحول ∆Belief-RL "الفضول" إلى إشارة تعلم بعيدة الأفق من خلال مكافأة الوكيل كلما زاد التفاعل من إيمانه بالإجابة الحقيقية، مما يعزز احتمالية النموذج نفسه للنتيجة الصحيحة. هذا يمنح تخصيصا ائتمانيا مكثفا خطوة بخطوة لطرح الأسئلة الصحيحة، بحيث يتعلم الوكلاء سلوك البحث الفعال عن المعلومات بشكل أسرع ويعيمشون إلى آفاق أطول بكثير + مهام حقيقية مثل خدمة العملاء والتخصيص مع تفاعلات أقل ضائعة.