Vuonna 2025 julkaistu tutkimus osoittaa, että puheen tunnemallit paranevat huomattavasti, kun heidät pakotetaan selittämään itseään. Ei vain "puhuja on vihainen" mutta "puhuja on vihainen, koska he sanovat X / Havaitsin äänen Y / tässä on todisteet" Se on melkein nolostuttavan yksinkertaista. otat transkription ja perustotuuden tunne-etiketin, kehotat LLM:ää luomaan selityksen, joka perustelee merkinnän siihen, mitä oikeasti sanottiin, ja käytät SITÄ valvontasignaalina. Koulutus päättelyyn perustuvilla kohteilla pelkkien nimimäärien sijaan paransi tunteiden tunnistamista ~20 % (IEMOCAPissa ja MELD:ssä). He testaavat myös domainin ulkopuolisia tietoja (mandariinikiinan TV, singlish YouTube), ja päättelymalli yleistää edelleen paremmin kuin emotion2vec+ large, R1-AQA ja audio-reasoner, vaikka se on koulutettu vain englanninkielisiin dyadisiin keskusteluihin ja TV-sarjan Friends-jaksoihin. luokittelija muistaa jakauman, mutta päättelymalli oppii, miltä tunteet oikeasti kuulostavat. intuitiivinen, mutta silti hillitty villi.