Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba Groups Tongyi Lab öppnade källkoden för Fun-Audio-Chat-8B från deras Tongyi Fun röstmodellsfamilj – en tal-till-tal (S2S) röstmodell som använder 50 % mindre GPU samtidigt som den förstår känslomässig ton utan explicita etiketter.
Till skillnad från traditionella ASR→LLM→TTS-pipelines bearbetar S2S röst direkt, vilket bevarar ton, känsla och prosodi med lägre latens.
Röstempati: Känner av känslor från ton, tempo, pauser och prosodi – inte bara ord. Samma mening som sägs glad vs ledsen får olika svar.
Mer information👇
#TongyiFun
1/5
2/5 - Talundervisning följande:
Fun-Audio-Chat stöder Speech Instruction-Following, vilket gör det möjligt för användare att styra talgenereringsattribut såsom känsla, talstil, hastighet, tonhöjd och volym via naturliga röstkommandon.
Exempel:
→ "Prata som en entusiastisk esportkommentator"
→ "Säg det med en arg, hög, gäll röst"
→ "Börja uttråkad, bli mer exalterad"
Rollspel, akustisk kontroll, känsloövergångar – allt stöds.
3/5 - Kärninnovation:
De flesta röstmodeller körs med bildfrekvensen 12,5–25 Hz. Fun-Audio-Chat använder Dual-Resolution Speech Representations för att nå 5Hz.
Resultat:
→ ~50 % mindre GPU-timmar
→ Samma talkvalitet
→ Lägre latens
Detta är det effektivitetsgenombrott som S2S-modeller behövde.
4/5 - Samtal med talfunktion:
Utför uppgifter med naturliga röstkommandon: "Ställ in en 25-minuters fokustimer" eller "Navigera från Alibaba-campus till Hangzhou Zoo"
SOTA bland ~8 miljarder modeller på OpenAudioBench, VoiceBench, UltraEval-Audio för:
→ Röst Empati
→ Talad QA
→ Ljudförståelse
→ Funktionsanrop
→ Instruktionsföljning
295
Topp
Rankning
Favoriter
