El grupo Alibaba ha abierto el código de Fun-Audio-Chat-8B de su familia de modelos de voz Tongyi Fun - un modelo de voz de voz a voz (S2S) que utiliza un 50% menos de GPU mientras comprende el tono emocional sin etiquetas explícitas. A diferencia de los pipelines tradicionales ASR→LLM→TTS, S2S procesa la voz directamente, preservando el tono, la emoción y la prosodia con menor latencia. Empatía Vocal: Detecta la emoción a partir del tono, el ritmo, las pausas y la prosodia - no solo de las palabras. La misma frase dicha feliz vs triste recibe una respuesta diferente. Más detalles👇 #TongyiFun 1/5
2/5 - Instrucciones de Seguimiento de Voz: Fun-Audio-Chat admite el Seguimiento de Instrucciones de Voz, lo que permite a los usuarios controlar atributos de generación de voz como emoción, estilo de habla, velocidad, tono y volumen a través de comandos de voz naturales. Ejemplos: → "Habla como un comentarista de esports emocionado" → "Dilo con una voz enojada, alta y fuerte" → "Empieza aburrido, luego emociónate más" Juego de roles, control acústico, transiciones emocionales - todo soportado.
3/5 - Innovación Central: La mayoría de los modelos de voz funcionan a tasas de fotogramas de 12.5-25Hz. Fun-Audio-Chat utiliza Representaciones de Voz de Doble Resolución para alcanzar 5Hz. Resultado: → ~50% menos horas de GPU → La misma calidad de voz → Menor latencia Este es el avance en eficiencia que los modelos S2S necesitaban.
4/5 - Llamada a la Función de Habla: Ejecuta tareas a través de comandos de voz naturales: "Configura un temporizador de enfoque de 25 minutos" o "Navega desde el campus de Alibaba hasta el Zoológico de Hangzhou" SOTA entre ~8B modelos en OpenAudioBench, VoiceBench, UltraEval-Audio para: → Empatía Vocal → QA Hablado → Comprensión de Audio → Llamada a funciones → Seguimiento de instrucciones
90