تشير مدونة OpenAI () إلى أن نماذج اللغة اليوم تهلوس لأن التدريب والتقييم يكافحان التخمين بدلا من الاعتراف بعدم اليقين. هذا يثير سؤالا طبيعيا: هل يمكننا تقليل الهلوسة دون الإضرار بالمنفعة؟ 🤔 يمكن للتعلم الواقعي وفقا للسياسة مع مكافأة الاسترداد الثنائية المعززة (RAR) أن يحسن الحقائق (انخفاض بنسبة 40٪ في الهلوسة) مع الحفاظ على فائدة النموذج (معدل الفوز والدقة) لمديري التعلم المدربين بالكامل والقادرين مثل Qwen3-8B. [1/ن]