Le laboratoire Tongyi d'Alibaba Group a open-sourcé Fun-Audio-Chat-8B de leur famille de modèles vocaux Tongyi Fun - un modèle vocal de parole à parole (S2S) qui utilise 50 % de GPU en moins tout en comprenant le ton émotionnel sans étiquettes explicites. Contrairement aux pipelines traditionnels ASR→LLM→TTS, S2S traite la voix directement, préservant le ton, l'émotion et la prosodie avec une latence réduite. Empathie vocale : Détecte l'émotion à partir du ton, du rythme, des pauses et de la prosodie - pas seulement des mots. La même phrase dite avec joie ou tristesse obtient une réponse différente. Plus de détails👇 #TongyiFun 1/5
2/5 - Suivi des instructions vocales : Fun-Audio-Chat prend en charge le suivi des instructions vocales, permettant aux utilisateurs de contrôler les attributs de génération de la parole tels que l'émotion, le style de parole, la vitesse, la hauteur et le volume grâce à des commandes vocales naturelles. Exemples : → "Parle comme un commentateur d'esports excité" → "Dis-le d'une voix en colère, forte et aiguë" → "Commence ennuyé, puis deviens plus excité" Jeu de rôle, contrôle acoustique, transitions émotionnelles - tout est pris en charge.
3/5 - Innovation de base : La plupart des modèles vocaux fonctionnent à des taux de trame de 12,5 à 25 Hz. Fun-Audio-Chat utilise des Représentations de Parole à Double Résolution pour atteindre 5 Hz. Résultat : → ~50 % d'heures GPU en moins → Même qualité de parole → Latence réduite C'est la percée en efficacité dont les modèles S2S avaient besoin.
4/5 - Appel de Fonction de Discours : Exécutez des tâches par des commandes vocales naturelles : "Définir un minuteur de concentration de 25 minutes" ou "Naviguer du campus Alibaba au Zoo de Hangzhou" SOTA parmi ~8B modèles sur OpenAudioBench, VoiceBench, UltraEval-Audio pour : → Empathie vocale → QA orale → Compréhension audio → Appel de fonction → Suivi d'instructions
122