Es gibt also dieses Papier von 2025, das zeigt, dass Sprachemotionen-Modelle viel besser werden, wenn man sie zwingt, sich selbst zu erklären. Nicht nur "der Sprecher ist wütend" sondern "der Sprecher ist wütend, weil er X sagt / ich habe den Klang Y erkannt / hier ist der Beweis" Es ist fast peinlich einfach. Man nimmt das Transkript und das tatsächliche Emotion-Label, fordert ein LLM auf, eine Erklärung zu generieren, die das Label mit dem, was tatsächlich gesagt wurde, verknüpft, und verwendet DAS dann als das Überwachungssignal. Das Training mit reasoning-augmentierten Zielen anstelle von bloßen Labels verbesserte die Emotionserkennung um ~20% (über IEMOCAP und MELD). Sie testen auch mit Daten außerhalb des Bereichs (Mandarin-TV, Singlish-YouTube), und das Reasoning-Modell generalisiert IMMERNOCH besser als emotion2vec+ groß, R1-AQA und audio-reasoner, obwohl es nur mit englischen dyadischen Gesprächen und Episoden der TV-Show Friends trainiert wurde. Ein Klassifikator merkt sich eine Verteilung, aber ein Reasoning-Modell lernt, wie Emotionen tatsächlich klingen. Intuitiv, aber trotzdem irgendwie verrückt.