Alibaba Groups Tongyi Lab åpnet Fun-Audio-Chat-8B fra deres Tongyi Fun stemmemodellfamilie – en tale-til-tale (S2S) stemmemodell som bruker 50 % mindre GPU samtidig som den forstår emosjonell tone uten eksplisitte etiketter. I motsetning til tradisjonelle ASR→LLM→TTS-pipelines, behandler S2S stemme direkte, og bevarer tone, følelser og prosodi med lavere forsinkelse. Stemmeempati: Oppdager følelser fra tone, tempo, pauser og prosodi – ikke bare ord. Samme setning sagt glad vs trist får et annet svar. Flere detaljer👇 #TongyiFun 1/5
2/5 - Taleundervisning følgende: Fun-Audio-Chat støtter Speech Instruction-Following, og lar brukere kontrollere talegenereringsattributter som følelse, talestil, hastighet, tonehøyde og volum gjennom naturlige stemmekommandoer. Eksempler: → "Snakk som en entusiastisk esports-kommentator" → "Si det med en sint, høy, høyfrekvent stemme" → "Start med å kjede deg, så bli mer begeistret" Rollespill, akustisk kontroll, følelsesoverganger – alt støttet.
3/5 - Kjerneinnovasjon: De fleste stemmemodeller kjører på 12,5-25Hz bildefrekvens. Fun-Audio-Chat bruker Dual-Resolution Speech Representations for å nå 5Hz. Resultat: → ~50 % færre GPU-timer → Samme talekvalitet → Lavere ventetid Dette er det effektivitetsgjennombruddet S2S-modellene trengte.
4/5 - Talefunksjonskall: Utfør oppgaver gjennom naturlige stemmekommandoer: «Sett en 25-minutters fokustimer» eller «Naviger fra Alibaba-campus til Hangzhou Zoo» SOTA blant ~8 milliarder modeller på OpenAudioBench, VoiceBench, UltraEval-Audio for: → Stemme Empati → Muntlig QA → Lydforståelse → Funksjonskall → Instruksjonsoppfølging
117