Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tongyi Lab od Alibaba Group otevřela Fun-Audio-Chat-8B z rodiny hlasových modelů Tongyi Fun – hlasový model převodu řeči na řeč (S2S), který využívá o 50 % méně GPU a rozumí emocionálnímu tónu bez explicitních označení.
Na rozdíl od tradičních ASR→LLM→TTS pipeline zpracovává S2S hlas přímo, přičemž zachovává tón, emoce a prozodii s nižší latencí.
Empatie hlasu: Rozpoznává emoce z tónu, tempa, pauz a prozodie – nejen slov. Stejná věta o štěstí vs smutku vyvolává jinou reakci.
Více podrobností👇
#TongyiFun
1/5
2/5 - Výuka řeči následující:
Fun-Audio-Chat podporuje Speech Instruction-Following, což uživatelům umožňuje ovládat atributy generování řeči, jako jsou emoce, styl mluvy, rychlost, výška a hlasitost pomocí přirozených hlasových příkazů.
Příklady:
→ "Mluv jako nadšený komentátor esportu"
→ "Řekni to rozzlobeným, hlasitým, vysokým hlasem"
→ "Začni znuděný, pak se víc těš"
Hraní rolí, akustická kontrola, přechody emocí – vše podporované.
3/5 - Základní inovace:
Většina hlasových modelů běží na snímkových frekvencích 12,5-25Hz. Fun-Audio-Chat používá dvojí rozlišení řečových reprezentací pro dosažení 5Hz.
Výsledek:
→ ~50 % méně GPU hodin
→ Stejná kvalita řeči
→ Nižší latence
To jsou přelomové modely S2S, které jsou potřeba v efektivitě.
4/5 - Volání řečových funkcí:
Vykonejte úkoly pomocí přirozených hlasových příkazů: "Nastavte 25minutový časovač soustředění" nebo "Navigujte z kampusu Alibaba do zoo v Hangzhou"
SOTA mezi modely ~8B na OpenAudioBench, VoiceBench, UltraEval-Audio pro:
→ Voice Empathy
→ Spoken QA
→ Porozumění zvuku
→ Volání funkcí
→ Dodržování instrukcí
181
Top
Hodnocení
Oblíbené
