Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El Tongyi Lab del Grupo Alibaba obtuvo el código abierto Fun-Audio-Chat-8B de su familia de modelos de voz Tongyi Fun, un modelo de voz de voz a voz (S2S) que utiliza un 50% menos de GPU mientras entiende el tono emocional sin etiquetas explícitas.
A diferencia de las canalizaciones tradicionales ASR→LLM→TTS, S2S procesa la voz directamente, preservando el tono, la emoción y la prosodia con menor latencia.
Empatía de voz: Detecta la emoción en el tono, el ritmo, las pausas y la prosodia, no solo en las palabras. La misma frase, que dice feliz vs triste, recibe una respuesta diferente.
Más detalles👇
#TongyiFun
1/5
2/5 - Instrucción del habla a continuación:
Fun-Audio-Chat soporta Speech Instruction-Follow, permitiendo a los usuarios controlar atributos de generación de voz como emoción, estilo de habla, velocidad, tono y volumen mediante comandos de voz naturales.
Ejemplos:
→ "Habla como un comentarista de esports entusiasmado"
→ "Dilo con una voz enfadada, fuerte y aguda"
→ "Empieza aburrido y luego emociórate más"
Juego de roles, control acústico, transiciones emocionales: todo soportado.
3/5 - Innovación Central:
La mayoría de los modelos de voz funcionan a tasas de 12,5-25 Hz. Fun-Audio-Chat utiliza representaciones de voz de doble resolución para alcanzar los 5Hz.
Resultado:
→ ~50% menos horas de GPU
→ Misma calidad de habla
→ Menor latencia
Estos son los modelos S2S revolucionarios de eficiencia que necesitaban.
4/5 - Llamada de la función del habla:
Ejecuta tareas mediante comandos de voz naturales: "Poner un temporizador de concentración de 25 minutos" o "Navegar del campus de Alibaba al zoológico de Hangzhou"
SOTA entre los modelos de ~8B en OpenAudioBench, VoiceBench, UltraEval-Audio para:
→ Empatía de la voz
→ Preguntas habladas
→ Comprensión del audio
→ Llamada de función
→ Seguimiento de instrucciones
375
Populares
Ranking
Favoritas
