Alibaba Group's Tongyi Lab heeft Fun-Audio-Chat-8B open-source gemaakt uit hun Tongyi Fun stemmodel familie - een spraak-naar-spraak (S2S) stemmodel dat 50% minder GPU gebruikt terwijl het emotionele toon begrijpt zonder expliciete labels. In tegenstelling tot traditionele ASR→LLM→TTS pipelines, verwerkt S2S stem direct, waardoor toon, emotie en prosodie behouden blijven met lagere latentie. Stem Empathie: Detecteert emotie uit toon, tempo, pauzes en prosodie - niet alleen woorden. Dezelfde zin die blij vs verdrietig wordt gezegd, krijgt een andere reactie. Meer details👇 #TongyiFun 1/5
2/5 - Spraak Instructie Volgen: Fun-Audio-Chat ondersteunt Spraak Instructie-Volgen, waarmee gebruikers de spraakgeneratie-attributen zoals emotie, spreekstijl, snelheid, toonhoogte en volume kunnen regelen via natuurlijke spraakopdrachten. Voorbeelden: → "Spreek als een opgewonden esports-commentator" → "Zeg het in een boze, luide, hoge stem" → "Begin verveeld, en word dan enthousiaster" Rollenspel, akoestische controle, emotietransities - allemaal ondersteund.
3/5 - Kerninnovatie: De meeste spraakmodellen draaien op frame rates van 12,5-25Hz. Fun-Audio-Chat gebruikt Dual-Resolution Speech Representations om 5Hz te bereiken. Resultaat: → ~50% minder GPU-uren → Zelfde spraakkwaliteit → Lagere latentie Dit is de efficiëntie doorbraak die S2S-modellen nodig hadden.
4/5 - Spraakfunctie Aanroepen: Voer taken uit via natuurlijke spraakopdrachten: "Stel een focus-timer van 25 minuten in" of "Navigeer van de Alibaba-campus naar de Hangzhou Zoo" SOTA onder ~8B modellen op OpenAudioBench, VoiceBench, UltraEval-Audio voor: → Stem Empathie → Gesproken QA → Audio begrip → Functie aanroepen → Instructie opvolgen
159