Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba Group's Tongyi Lab heeft Fun-Audio-Chat-8B open-source gemaakt uit hun Tongyi Fun stemmodel familie - een spraak-naar-spraak (S2S) stemmodel dat 50% minder GPU gebruikt terwijl het emotionele toon begrijpt zonder expliciete labels.
In tegenstelling tot traditionele ASR→LLM→TTS pipelines, verwerkt S2S stem direct, waardoor toon, emotie en prosodie behouden blijven met lagere latentie.
Stem Empathie: Detecteert emotie uit toon, tempo, pauzes en prosodie - niet alleen woorden. Dezelfde zin die blij vs verdrietig wordt gezegd, krijgt een andere reactie.
Meer details👇
#TongyiFun
1/5
2/5 - Spraak Instructie Volgen:
Fun-Audio-Chat ondersteunt Spraak Instructie-Volgen, waarmee gebruikers de spraakgeneratie-attributen zoals emotie, spreekstijl, snelheid, toonhoogte en volume kunnen regelen via natuurlijke spraakopdrachten.
Voorbeelden:
→ "Spreek als een opgewonden esports-commentator"
→ "Zeg het in een boze, luide, hoge stem"
→ "Begin verveeld, en word dan enthousiaster"
Rollenspel, akoestische controle, emotietransities - allemaal ondersteund.
3/5 - Kerninnovatie:
De meeste spraakmodellen draaien op frame rates van 12,5-25Hz. Fun-Audio-Chat gebruikt Dual-Resolution Speech Representations om 5Hz te bereiken.
Resultaat:
→ ~50% minder GPU-uren
→ Zelfde spraakkwaliteit
→ Lagere latentie
Dit is de efficiëntie doorbraak die S2S-modellen nodig hadden.
4/5 - Spraakfunctie Aanroepen:
Voer taken uit via natuurlijke spraakopdrachten: "Stel een focus-timer van 25 minuten in" of "Navigeer van de Alibaba-campus naar de Hangzhou Zoo"
SOTA onder ~8B modellen op OpenAudioBench, VoiceBench, UltraEval-Audio voor:
→ Stem Empathie
→ Gesproken QA
→ Audio begrip
→ Functie aanroepen
→ Instructie opvolgen
159
Boven
Positie
Favorieten
