Grupa Alibaba otworzyła źródło Fun-Audio-Chat-8B z rodziny modeli głosowych Tongyi Fun - model głosowy typu speech-to-speech (S2S), który wykorzystuje o 50% mniej GPU, jednocześnie rozumiejąc emocjonalny ton bez wyraźnych etykiet. W przeciwieństwie do tradycyjnych pipeline'ów ASR→LLM→TTS, S2S przetwarza głos bezpośrednio, zachowując ton, emocje i prozodię przy niższej latencji. Empatia głosowa: Wykrywa emocje na podstawie tonu, tempa, pauz i prozodii - nie tylko słów. Ta sama zdanie wypowiedziane w radosny vs smutny sposób uzyskuje inną odpowiedź. Więcej szczegółów👇 #TongyiFun 1/5
2/5 - Instrukcje dotyczące mowy: Fun-Audio-Chat wspiera podążanie za instrukcjami mowy, umożliwiając użytkownikom kontrolowanie atrybutów generowania mowy, takich jak emocje, styl mówienia, prędkość, ton i głośność za pomocą naturalnych poleceń głosowych. Przykłady: → "Mów jak podekscytowany komentator e-sportowy" → "Powiedz to w złości, głośnym, wysokim głosem" → "Zacznij znudzony, a potem stawaj się coraz bardziej podekscytowany" Odtwarzanie ról, kontrola akustyczna, przejścia emocjonalne - wszystko wspierane.
3/5 - Innowacja rdzeniowa: Większość modeli głosowych działa z częstotliwościami klatek 12,5-25Hz. Fun-Audio-Chat wykorzystuje podwójne reprezentacje mowy o wysokiej rozdzielczości, aby osiągnąć 5Hz. Wynik: → ~50% mniej godzin GPU → Taka sama jakość mowy → Niższe opóźnienie To jest przełom w efektywności, którego potrzebowały modele S2S.
4/5 - Funkcja wywoływania mowy: Wykonuj zadania za pomocą naturalnych poleceń głosowych: "Ustaw 25-minutowy timer na skupienie" lub "Nawiguj z kampusu Alibaba do ZOO w Hangzhou" SOTA wśród ~8B modeli na OpenAudioBench, VoiceBench, UltraEval-Audio w zakresie: → Empatia głosowa → Mówione QA → Zrozumienie audio → Wywoływanie funkcji → Podążanie za instrukcjami
113