Așadar, există un articol din 2025 care arată că modelele emoțiilor vorbirii devin mult mai bune atunci când le forțezi să se explice. Nu doar "Vorbitorul este furios" dar "vorbitorul este furios pentru că spune X / am detectat sunetul Y / iată dovezile" Este aproape rușinos de simplu. iei eticheta transcript & ground truth emoțională, ceri unui LLM să genereze o explicație care să ancoreze eticheta în ceea ce a fost spus, apoi folosești ACUM ca semnal de supraveghere. antrenamentul pe ținte augmentate cu raționament, în loc de etichete simple, a îmbunătățit recunoașterea emoțiilor cu ~20% (în IEMOCAP și MELD). de asemenea, testează pe date din afara domeniului (mandarin TV, singleish youtube), iar modelul de raționament ÎNCĂ generalizează mai bine decât emotion2vec+ large, R1-AQA și audio-reasoner, deși a fost antrenat doar pe conversații și episoade în limba engleză din serialul TV Friends. Un clasificator memorează o distribuție, dar un model de raționament învață cum sună de fapt emoțiile. Intuitiv, dar totuși puțin sălbatic.