Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Tongyi Lab do Alibaba Group tornou open-source o Fun-Audio-Chat-8B da sua família de modelos de voz Tongyi Fun - um modelo de voz de fala-para-fala (S2S) que utiliza 50% menos GPU enquanto compreende o tom emocional sem rótulos explícitos.
Ao contrário dos pipelines tradicionais ASR→LLM→TTS, o S2S processa a voz diretamente, preservando o tom, a emoção e a prosódia com menor latência.
Empatia Vocal: Detecta emoção a partir do tom, ritmo, pausas e prosódia - não apenas palavras. A mesma frase dita de forma feliz vs triste recebe uma resposta diferente.
Mais detalhes👇
#TongyiFun
1/5
2/5 - Instruções de Fala:
O Fun-Audio-Chat suporta o seguimento de instruções de fala, permitindo que os utilizadores controlem atributos de geração de fala, como emoção, estilo de fala, velocidade, tom e volume através de comandos de voz naturais.
Exemplos:
→ "Fale como um comentador de esports entusiasmado"
→ "Diga isso com uma voz alta, irritada e aguda"
→ "Comece entediado, depois fique mais entusiasmado"
Interpretação de papéis, controlo acústico, transições emocionais - tudo suportado.
3/5 - Inovação Central:
A maioria dos modelos de voz opera a taxas de quadros de 12,5-25Hz. O Fun-Audio-Chat utiliza Representações de Fala de Dupla Resolução para atingir 5Hz.
Resultado:
→ ~50% menos horas de GPU
→ Mesma qualidade de fala
→ Menor latência
Esta é a quebra de eficiência que os modelos S2S precisavam.
4/5 - Chamada de Função de Fala:
Execute tarefas através de comandos de voz naturais: "Defina um temporizador de foco de 25 minutos" ou "Navegue do campus da Alibaba até o Zoológico de Hangzhou"
SOTA entre ~8B modelos no OpenAudioBench, VoiceBench, UltraEval-Audio para:
→ Empatia Vocal
→ QA Falado
→ Compreensão de Áudio
→ Chamada de Função
→ Seguir Instruções
116
Top
Classificação
Favoritos
