Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba Groups Tongyi Lab åpnet Fun-Audio-Chat-8B fra deres Tongyi Fun stemmemodellfamilie – en tale-til-tale (S2S) stemmemodell som bruker 50 % mindre GPU samtidig som den forstår emosjonell tone uten eksplisitte etiketter.
I motsetning til tradisjonelle ASR→LLM→TTS-pipelines, behandler S2S stemme direkte, og bevarer tone, følelser og prosodi med lavere forsinkelse.
Stemmeempati: Oppdager følelser fra tone, tempo, pauser og prosodi – ikke bare ord. Samme setning sagt glad vs trist får et annet svar.
Flere detaljer👇
#TongyiFun
1/5
2/5 - Taleundervisning følgende:
Fun-Audio-Chat støtter Speech Instruction-Following, og lar brukere kontrollere talegenereringsattributter som følelse, talestil, hastighet, tonehøyde og volum gjennom naturlige stemmekommandoer.
Eksempler:
→ "Snakk som en entusiastisk esports-kommentator"
→ "Si det med en sint, høy, høyfrekvent stemme"
→ "Start med å kjede deg, så bli mer begeistret"
Rollespill, akustisk kontroll, følelsesoverganger – alt støttet.
3/5 - Kjerneinnovasjon:
De fleste stemmemodeller kjører på 12,5-25Hz bildefrekvens. Fun-Audio-Chat bruker Dual-Resolution Speech Representations for å nå 5Hz.
Resultat:
→ ~50 % færre GPU-timer
→ Samme talekvalitet
→ Lavere ventetid
Dette er det effektivitetsgjennombruddet S2S-modellene trengte.
4/5 - Talefunksjonskall:
Utfør oppgaver gjennom naturlige stemmekommandoer: «Sett en 25-minutters fokustimer» eller «Naviger fra Alibaba-campus til Hangzhou Zoo»
SOTA blant ~8 milliarder modeller på OpenAudioBench, VoiceBench, UltraEval-Audio for:
→ Stemme Empati
→ Muntlig QA
→ Lydforståelse
→ Funksjonskall
→ Instruksjonsoppfølging
117
Topp
Rangering
Favoritter
