Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die Tongyi Lab von Alibaba Group hat Fun-Audio-Chat-8B aus ihrer Tongyi Fun Sprachmodellfamilie Open Source gemacht - ein Sprach-zu-Sprach (S2S) Sprachmodell, das 50 % weniger GPU benötigt und den emotionalen Ton ohne explizite Labels versteht.
Im Gegensatz zu traditionellen ASR→LLM→TTS-Pipelines verarbeitet S2S die Stimme direkt und bewahrt Ton, Emotion und Prosodie mit geringerer Latenz.
Sprach-Empathie: Erkennt Emotionen aus Ton, Tempo, Pausen und Prosodie - nicht nur aus Wörtern. Der gleiche Satz, der glücklich vs. traurig gesagt wird, erhält eine andere Antwort.
Weitere Details👇
#TongyiFun
1/5
2/5 - Sprachsteuerung:
Fun-Audio-Chat unterstützt die Sprachsteuerung, die es Benutzern ermöglicht, die Eigenschaften der Sprachgenerierung wie Emotion, Sprechstil, Geschwindigkeit, Tonhöhe und Lautstärke durch natürliche Sprachbefehle zu steuern.
Beispiele:
→ "Sprich wie ein aufgeregter eSports-Kommentator"
→ "Sag es mit einer wütenden, lauten, hohen Stimme"
→ "Beginne gelangweilt, dann werde aufgeregter"
Rollenspiel, akustische Kontrolle, Emotionstransitionen - alles unterstützt.
3/5 - Kerninnovation:
Die meisten Sprachmodelle arbeiten mit Bildraten von 12,5-25 Hz. Fun-Audio-Chat verwendet Dual-Resolution Speech Representations, um 5 Hz zu erreichen.
Ergebnis:
→ ~50% weniger GPU-Stunden
→ Gleiche Sprachqualität
→ Geringere Latenz
Das ist der Effizienzdurchbruch, den S2S-Modelle benötigten.
4/5 - Sprachfunktion Aufruf:
Führen Sie Aufgaben durch natürliche Sprachbefehle aus: "Setze einen 25-minütigen Fokus-Timer" oder "Navigiere vom Alibaba-Campus zum Zoo von Hangzhou"
SOTA unter ~8B Modellen auf OpenAudioBench, VoiceBench, UltraEval-Audio für:
→ Sprach-Empathie
→ Gesprochenes QA
→ Audio-Verständnis
→ Funktionsaufruf
→ Anweisungsbefolgung
113
Top
Ranking
Favoriten
