Det finnes en artikkel fra 2025 som viser at tale-emosjonsmodeller blir mye bedre når du tvinger dem til å forklare seg. ikke bare «taleren er sint» men «taleren er sint fordi de sier X / Jeg oppdaget lyd Y / her er beviset» Det er nesten pinlig enkelt. du tar transkripsjons- og sannhetsfølelsesetiketten, ber en LLM om å generere en forklaring som forankrer etiketten i det som faktisk ble sagt, og bruker DET som supervisjonssignal. trening på resonnement-forsterkede mål i stedet for bare etiketter forbedret følelsesgjenkjenningen med ~20 % (på tvers av IEMOCAP og MELD). de tester også på data utenfor domenet (mandarin TV, singlish YouTube), og resonnementmodellen generaliserer FORTSATT bedre enn emotion2vec+ large, R1-AQA og audio-reasoner, selv om den bare ble trent på engelske diadiske samtaler og episoder av TV-serien Friends. En klassifisator memorerer en fordeling, men en resonnementsmodell lærer hvordan følelser faktisk høres ut. Intuitivt, men fortsatt lavmælt vilt.