Tongyi Lab od Alibaba Group otevřela Fun-Audio-Chat-8B z rodiny hlasových modelů Tongyi Fun – hlasový model převodu řeči na řeč (S2S), který využívá o 50 % méně GPU a rozumí emocionálnímu tónu bez explicitních označení. Na rozdíl od tradičních ASR→LLM→TTS pipeline zpracovává S2S hlas přímo, přičemž zachovává tón, emoce a prozodii s nižší latencí. Empatie hlasu: Rozpoznává emoce z tónu, tempa, pauz a prozodie – nejen slov. Stejná věta o štěstí vs smutku vyvolává jinou reakci. Více podrobností👇 #TongyiFun 1/5
2/5 - Výuka řeči následující: Fun-Audio-Chat podporuje Speech Instruction-Following, což uživatelům umožňuje ovládat atributy generování řeči, jako jsou emoce, styl mluvy, rychlost, výška a hlasitost pomocí přirozených hlasových příkazů. Příklady: → "Mluv jako nadšený komentátor esportu" → "Řekni to rozzlobeným, hlasitým, vysokým hlasem" → "Začni znuděný, pak se víc těš" Hraní rolí, akustická kontrola, přechody emocí – vše podporované.
3/5 - Základní inovace: Většina hlasových modelů běží na snímkových frekvencích 12,5-25Hz. Fun-Audio-Chat používá dvojí rozlišení řečových reprezentací pro dosažení 5Hz. Výsledek: → ~50 % méně GPU hodin → Stejná kvalita řeči → Nižší latence To jsou přelomové modely S2S, které jsou potřeba v efektivitě.
4/5 - Volání řečových funkcí: Vykonejte úkoly pomocí přirozených hlasových příkazů: "Nastavte 25minutový časovač soustředění" nebo "Navigujte z kampusu Alibaba do zoo v Hangzhou" SOTA mezi modely ~8B na OpenAudioBench, VoiceBench, UltraEval-Audio pro: → Voice Empathy → Spoken QA → Porozumění zvuku → Volání funkcí → Dodržování instrukcí
181