Отже, є стаття 2025 року, яка показує, що моделі емоцій мовлення стають набагато кращими, коли їх змушують пояснювати. Не просто «Спікер сердиться» але «мовець сердиться, бо каже X / Я зафіксував звук Y / ось докази» Це майже соромно просто. Ви берете позначку транскрипту та позначення правди емоцій, просите LLM створити пояснення, що ґрунтується на тому, що насправді було сказано, а потім використовуєте ЦЕ як сигнал супервізії. Навчання на цілях, доповнених міркуванням, замість голих ярликів, покращило розпізнавання емоцій на ~20% (у IEMOCAP і MELD). вони також тестують дані поза доменом (мандаринське телебачення, окремий YouTube), і модель міркувань ДОСІ узагальнює краще, ніж emotion2vec+ large, R1-AQA та audio-reasoner, хоча її тренували лише на англійських діадичних розмовах і епізодах серіалу Friends. Класифікатор запам'ятовує розподіл, а модель мислення вивчає те, як насправді звучать емоції. Інтуїтивно, але все одно стримано дико.