O Tongyi Lab, do Alibaba Group, disponibilizou o Fun-Audio-Chat-8B de código aberto da família de modelos de voz Tongyi Fun – um modelo de voz de fala para fala (S2S) que usa 50% menos GPU enquanto entende o tom emocional sem rótulos explícitos. Ao contrário dos pipelines tradicionais ASR→LLM→TTS, o S2S processa a voz diretamente, preservando o tom, a emoção e a prosódia com menor latência. Empatia Vocal: Detecta emoção no tom, ritmo, pausas e prosódia – não apenas palavras. A mesma frase que diz feliz vs triste recebe uma resposta diferente. Mais detalhes👇 #TongyiFun 1/5
2/5 - Instrução da Fala Após Isso: O Fun-Audio-Chat suporta o Seguimento de Instruções de Fala, permitindo que os usuários controlem atributos de geração de fala, como emoção, estilo de fala, velocidade, tom e volume por meio de comandos de voz naturais. Exemplos: → "Fale como um comentarista de esports animado" → "Fale com uma voz raivosa, alta e aguda" → "Comece entediado, depois fique mais animado" Role play, controle acústico, transições emocionais – tudo suportado.
3/5 - Inovação Central: A maioria dos modelos de voz roda em taxas de quadros de 12,5-25Hz. O Fun-Audio-Chat utiliza Representações de Fala de Dupla Resolução para atingir 5Hz. Resultado: → ~50% menos horas de GPU → Mesma qualidade de fala → Menor latência Esse é o modelo S2S inovador de eficiência necessário.
4/5 - Chamada da Função da Fala: Execute tarefas por comandos de voz naturais: "Defina um temporizador de foco de 25 minutos" ou "Navegue do campus Alibaba até o Zoológico de Hangzhou" SOTA entre os modelos ~8B em OpenAudioBench, VoiceBench, UltraEval-Audio para: → Empatia Vocal → QA falado → Compreensão de áudio → Chamada de função → Seguir instruções
375