هناك ورقة بحثية من عام 2025 تظهر أن نماذج مشاعر الكلام تتحسن كثيرا عندما تجبرهم على شرح نفسها. ليس فقط "المتحدث غاضب" لكن "المتحدث غاضب لأنه يقول X / لقد رصدت صوت Y / إليك الدليل" الأمر بسيط بشكل محرج تقريبا. تأخذ النص وتضع علامة المشاعر الحقيقية، وتطلب من نموذج اللغة الكبيرة أن ينتج شرحا يؤسس التصنيف بما قيل فعليا، ثم تستخدم ذلك كإشارة إشراف. التدريب على أهداف معززة بالاستدلال بدلا من التسميات المجردة حسن التعرف على المشاعر بنسبة ~20٪ (عبر IEMOCAP وMELD). كما يختبرون على بيانات خارج النطاق (Mandarin TV، Singlish YouTube)، ولا يزال نموذج الاستدلال يعمم بشكل أفضل من emotion2vec+ large وR1-AQA وaudio-reasoner، رغم أنه تم تدريبه فقط على المحادثات الثنائية الإنجليزية وحلقات برنامج Friends التلفزيوني. المصنف يحفظ توزيعا، لكن نموذج الاستدلالات يتعلم كيف تبدو المشاعر فعليا. بديهية لكنها لا تزال جامحة إلى حد ما.