El Tongyi Lab del Grupo Alibaba obtuvo el código abierto Fun-Audio-Chat-8B de su familia de modelos de voz Tongyi Fun, un modelo de voz de voz a voz (S2S) que utiliza un 50% menos de GPU mientras entiende el tono emocional sin etiquetas explícitas. A diferencia de las canalizaciones tradicionales ASR→LLM→TTS, S2S procesa la voz directamente, preservando el tono, la emoción y la prosodia con menor latencia. Empatía de voz: Detecta la emoción en el tono, el ritmo, las pausas y la prosodia, no solo en las palabras. La misma frase, que dice feliz vs triste, recibe una respuesta diferente. Más detalles👇 #TongyiFun 1/5
2/5 - Instrucción del habla a continuación: Fun-Audio-Chat soporta Speech Instruction-Follow, permitiendo a los usuarios controlar atributos de generación de voz como emoción, estilo de habla, velocidad, tono y volumen mediante comandos de voz naturales. Ejemplos: → "Habla como un comentarista de esports entusiasmado" → "Dilo con una voz enfadada, fuerte y aguda" → "Empieza aburrido y luego emociórate más" Juego de roles, control acústico, transiciones emocionales: todo soportado.
3/5 - Innovación Central: La mayoría de los modelos de voz funcionan a tasas de 12,5-25 Hz. Fun-Audio-Chat utiliza representaciones de voz de doble resolución para alcanzar los 5Hz. Resultado: → ~50% menos horas de GPU → Misma calidad de habla → Menor latencia Estos son los modelos S2S revolucionarios de eficiencia que necesitaban.
4/5 - Llamada de la función del habla: Ejecuta tareas mediante comandos de voz naturales: "Poner un temporizador de concentración de 25 minutos" o "Navegar del campus de Alibaba al zoológico de Hangzhou" SOTA entre los modelos de ~8B en OpenAudioBench, VoiceBench, UltraEval-Audio para: → Empatía de la voz → Preguntas habladas → Comprensión del audio → Llamada de función → Seguimiento de instrucciones
375