Alibaba Groups Tongyi Lab öppnade källkoden för Fun-Audio-Chat-8B från deras Tongyi Fun röstmodellsfamilj – en tal-till-tal (S2S) röstmodell som använder 50 % mindre GPU samtidigt som den förstår känslomässig ton utan explicita etiketter. Till skillnad från traditionella ASR→LLM→TTS-pipelines bearbetar S2S röst direkt, vilket bevarar ton, känsla och prosodi med lägre latens. Röstempati: Känner av känslor från ton, tempo, pauser och prosodi – inte bara ord. Samma mening som sägs glad vs ledsen får olika svar. Mer information👇 #TongyiFun 1/5
2/5 - Talundervisning följande: Fun-Audio-Chat stöder Speech Instruction-Following, vilket gör det möjligt för användare att styra talgenereringsattribut såsom känsla, talstil, hastighet, tonhöjd och volym via naturliga röstkommandon. Exempel: → "Prata som en entusiastisk esportkommentator" → "Säg det med en arg, hög, gäll röst" → "Börja uttråkad, bli mer exalterad" Rollspel, akustisk kontroll, känsloövergångar – allt stöds.
3/5 - Kärninnovation: De flesta röstmodeller körs med bildfrekvensen 12,5–25 Hz. Fun-Audio-Chat använder Dual-Resolution Speech Representations för att nå 5Hz. Resultat: → ~50 % mindre GPU-timmar → Samma talkvalitet → Lägre latens Detta är det effektivitetsgenombrott som S2S-modeller behövde.
4/5 - Samtal med talfunktion: Utför uppgifter med naturliga röstkommandon: "Ställ in en 25-minuters fokustimer" eller "Navigera från Alibaba-campus till Hangzhou Zoo" SOTA bland ~8 miljarder modeller på OpenAudioBench, VoiceBench, UltraEval-Audio för: → Röst Empati → Talad QA → Ljudförståelse → Funktionsanrop → Instruktionsföljning
295