Alibaba Groupin Tongyi Lab otti avoimen lähdekoodin Fun-Audio-Chat-8B:n Tongyi Fun -äänimalliperheestään – puheesta puheeksi (S2S) -äänimallin, joka käyttää 50 % vähemmän GPU:ta ja ymmärtää tunnesävyn ilman nimenomaisia merkintöjä. Toisin kuin perinteiset ASR→LLM→TTS-putket, S2S käsittelee äänen suoraan, säilyttäen sävyn, tunteen ja prosodian pienemmällä viiveellä. Ääniempatia: Tunnistaa tunteet sävystä, tahdista, tauoista ja prosodiasta – ei pelkästään sanoista. Sama lause, joka sanoo iloinen vs surullinen, saa erilaisen vastauksen. Lisätietoja👇 #TongyiFun 1/5
2/5 - Puheenopetus seuraa: Fun-Audio-Chat tukee puheenohjaus-seuraamista, jolloin käyttäjät voivat hallita puheen generointiominaisuuksia, kuten tunnetta, puhetyyliä, nopeutta, sävelkorkeutta ja äänenvoimakkuutta luonnollisten äänikomentojen avulla. Esimerkkejä: → "Puhu kuin innostunut esports-kommentaattori" → "Sano se vihaisella, kovalla ja korkealla äänellä" → "Aloita tylsistyneenä, sitten innostu enemmän" Roolileikki, akustinen hallinta, tunnesiirtymät – kaikki tuettu.
3/5 - Ydininnovaatio: Useimmat äänimallit toimivat 12,5–25Hz kuvataajuuksilla. Fun-Audio-Chat käyttää kaksiresoluutioisia puherepresentaatioita saavuttaakseen 5Hz:n. Tulos: → ~50 % vähemmän GPU-tunteja → Sama puheen laatu → Alhaisempi viive Tämä on tehokkuuden läpimurto S2S-malleissa, joita tarvitaan.
4/5 - Puhetoimintojen kutsu: Suorita tehtäviä luonnollisilla äänikomennoilla: "Aseta 25 minuutin tarkennusajastin" tai "Navigoi Alibaban kampukselta Hangzhoun eläintarhaan" SOTA ~8B-mallien joukossa OpenAudioBenchissä, VoiceBenchissä, UltraEval-Audiossa: → Voice Empathy → Puhuttu laadunvarmistus → Äänen ymmärtäminen → Funktiokutsu → Ohjeiden noudattaminen
155