Det finns en artikel från 2025 som visar att tal-emotionsmodeller blir mycket bättre när man tvingar dem att förklara sig. inte bara "talaren är arg" men "talaren är arg för att de säger X / Jag upptäckte ljud Y / här är beviset" Det är nästan pinsamt enkelt. du tar etiketten transkript och grundsanning, uppmanar en LLM att generera en förklaring som förankrar etiketten i det som faktiskt sades, och använder DET som övervakningssignal. träning på resonemangsförstärkta mål istället för bara etiketter förbättrade känsloigenkänningen med ~20 % (över IEMOCAP och MELD). de testar också på data utanför domänen (mandarin TV, singlish youtube), och resonememangsmodellen generaliserar FORTFARANDE bättre än emotion2vec+ large, R1-AQA och audio-reasoner, även om den bara tränades på engelska dyadiska samtal och avsnitt av TV-serien Friends. En klassificerare memorerar en fördelning, men en resonemangsmodell lär sig hur känslor faktiskt låter. Intuitivt men ändå lite vilt.