O Tongyi Lab do Alibaba Group tornou open-source o Fun-Audio-Chat-8B da sua família de modelos de voz Tongyi Fun - um modelo de voz de fala-para-fala (S2S) que utiliza 50% menos GPU enquanto compreende o tom emocional sem rótulos explícitos. Ao contrário dos pipelines tradicionais ASR→LLM→TTS, o S2S processa a voz diretamente, preservando o tom, a emoção e a prosódia com menor latência. Empatia Vocal: Detecta emoção a partir do tom, ritmo, pausas e prosódia - não apenas palavras. A mesma frase dita de forma feliz vs triste recebe uma resposta diferente. Mais detalhes👇 #TongyiFun 1/5
2/5 - Instruções de Fala: O Fun-Audio-Chat suporta o seguimento de instruções de fala, permitindo que os utilizadores controlem atributos de geração de fala, como emoção, estilo de fala, velocidade, tom e volume através de comandos de voz naturais. Exemplos: → "Fale como um comentador de esports entusiasmado" → "Diga isso com uma voz alta, irritada e aguda" → "Comece entediado, depois fique mais entusiasmado" Interpretação de papéis, controlo acústico, transições emocionais - tudo suportado.
3/5 - Inovação Central: A maioria dos modelos de voz opera a taxas de quadros de 12,5-25Hz. O Fun-Audio-Chat utiliza Representações de Fala de Dupla Resolução para atingir 5Hz. Resultado: → ~50% menos horas de GPU → Mesma qualidade de fala → Menor latência Esta é a quebra de eficiência que os modelos S2S precisavam.
4/5 - Chamada de Função de Fala: Execute tarefas através de comandos de voz naturais: "Defina um temporizador de foco de 25 minutos" ou "Navegue do campus da Alibaba até o Zoológico de Hangzhou" SOTA entre ~8B modelos no OpenAudioBench, VoiceBench, UltraEval-Audio para: → Empatia Vocal → QA Falado → Compreensão de Áudio → Chamada de Função → Seguir Instruções
111