Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Grupa Alibaba otworzyła źródło Fun-Audio-Chat-8B z rodziny modeli głosowych Tongyi Fun - model głosowy typu speech-to-speech (S2S), który wykorzystuje o 50% mniej GPU, jednocześnie rozumiejąc emocjonalny ton bez wyraźnych etykiet.
W przeciwieństwie do tradycyjnych pipeline'ów ASR→LLM→TTS, S2S przetwarza głos bezpośrednio, zachowując ton, emocje i prozodię przy niższej latencji.
Empatia głosowa: Wykrywa emocje na podstawie tonu, tempa, pauz i prozodii - nie tylko słów. Ta sama zdanie wypowiedziane w radosny vs smutny sposób uzyskuje inną odpowiedź.
Więcej szczegółów👇
#TongyiFun
1/5
2/5 - Instrukcje dotyczące mowy:
Fun-Audio-Chat wspiera podążanie za instrukcjami mowy, umożliwiając użytkownikom kontrolowanie atrybutów generowania mowy, takich jak emocje, styl mówienia, prędkość, ton i głośność za pomocą naturalnych poleceń głosowych.
Przykłady:
→ "Mów jak podekscytowany komentator e-sportowy"
→ "Powiedz to w złości, głośnym, wysokim głosem"
→ "Zacznij znudzony, a potem stawaj się coraz bardziej podekscytowany"
Odtwarzanie ról, kontrola akustyczna, przejścia emocjonalne - wszystko wspierane.
3/5 - Innowacja rdzeniowa:
Większość modeli głosowych działa z częstotliwościami klatek 12,5-25Hz. Fun-Audio-Chat wykorzystuje podwójne reprezentacje mowy o wysokiej rozdzielczości, aby osiągnąć 5Hz.
Wynik:
→ ~50% mniej godzin GPU
→ Taka sama jakość mowy
→ Niższe opóźnienie
To jest przełom w efektywności, którego potrzebowały modele S2S.
4/5 - Funkcja wywoływania mowy:
Wykonuj zadania za pomocą naturalnych poleceń głosowych: "Ustaw 25-minutowy timer na skupienie" lub "Nawiguj z kampusu Alibaba do ZOO w Hangzhou"
SOTA wśród ~8B modeli na OpenAudioBench, VoiceBench, UltraEval-Audio w zakresie:
→ Empatia głosowa
→ Mówione QA
→ Zrozumienie audio
→ Wywoływanie funkcji
→ Podążanie za instrukcjami
113
Najlepsze
Ranking
Ulubione
