Vậy là có một bài báo năm 2025 cho thấy các mô hình cảm xúc trong lời nói trở nên tốt hơn nhiều khi bạn buộc chúng phải giải thích bản thân. Không chỉ là "người nói đang tức giận" mà là "người nói đang tức giận vì họ nói X / Tôi phát hiện âm thanh Y / đây là bằng chứng" Thật sự đơn giản đến mức gần như xấu hổ. Bạn lấy bản sao và nhãn cảm xúc đúng, yêu cầu một LLM tạo ra một lời giải thích dựa trên nhãn trong những gì thực sự đã nói, sau đó sử dụng ĐIỀU ĐÓ làm tín hiệu giám sát. Đào tạo trên các mục tiêu tăng cường lý luận thay vì chỉ nhãn đơn giản đã cải thiện nhận diện cảm xúc khoảng 20% (trên IEMOCAP và MELD). Họ cũng thử nghiệm trên dữ liệu ngoài miền (truyền hình tiếng Quan Thoại, youtube Singlish), và mô hình lý luận VẪN tổng quát tốt hơn emotion2vec + large, R1-AQA, và audio-reasoner, mặc dù nó chỉ được đào tạo trên các cuộc hội thoại song phương tiếng Anh và các tập của chương trình truyền hình Friends. Một bộ phân loại ghi nhớ một phân phối, nhưng một mô hình lý luận học cách mà cảm xúc thực sự phát ra âm thanh như thế nào. Trực quan nhưng vẫn khá hoang dã.