Die Tongyi Lab von Alibaba Group hat Fun-Audio-Chat-8B aus ihrer Tongyi Fun Sprachmodellfamilie Open Source gemacht - ein Sprach-zu-Sprach (S2S) Sprachmodell, das 50 % weniger GPU benötigt und den emotionalen Ton ohne explizite Labels versteht. Im Gegensatz zu traditionellen ASR→LLM→TTS-Pipelines verarbeitet S2S die Stimme direkt und bewahrt Ton, Emotion und Prosodie mit geringerer Latenz. Sprach-Empathie: Erkennt Emotionen aus Ton, Tempo, Pausen und Prosodie - nicht nur aus Wörtern. Der gleiche Satz, der glücklich vs. traurig gesagt wird, erhält eine andere Antwort. Weitere Details👇 #TongyiFun 1/5
2/5 - Sprachsteuerung: Fun-Audio-Chat unterstützt die Sprachsteuerung, die es Benutzern ermöglicht, die Eigenschaften der Sprachgenerierung wie Emotion, Sprechstil, Geschwindigkeit, Tonhöhe und Lautstärke durch natürliche Sprachbefehle zu steuern. Beispiele: → "Sprich wie ein aufgeregter eSports-Kommentator" → "Sag es mit einer wütenden, lauten, hohen Stimme" → "Beginne gelangweilt, dann werde aufgeregter" Rollenspiel, akustische Kontrolle, Emotionstransitionen - alles unterstützt.
3/5 - Kerninnovation: Die meisten Sprachmodelle arbeiten mit Bildraten von 12,5-25 Hz. Fun-Audio-Chat verwendet Dual-Resolution Speech Representations, um 5 Hz zu erreichen. Ergebnis: → ~50% weniger GPU-Stunden → Gleiche Sprachqualität → Geringere Latenz Das ist der Effizienzdurchbruch, den S2S-Modelle benötigten.
4/5 - Sprachfunktion Aufruf: Führen Sie Aufgaben durch natürliche Sprachbefehle aus: "Setze einen 25-minütigen Fokus-Timer" oder "Navigiere vom Alibaba-Campus zum Zoo von Hangzhou" SOTA unter ~8B Modellen auf OpenAudioBench, VoiceBench, UltraEval-Audio für: → Sprach-Empathie → Gesprochenes QA → Audio-Verständnis → Funktionsaufruf → Anweisungsbefolgung
113