Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Tongyi Lab, do Alibaba Group, disponibilizou o Fun-Audio-Chat-8B de código aberto da família de modelos de voz Tongyi Fun – um modelo de voz de fala para fala (S2S) que usa 50% menos GPU enquanto entende o tom emocional sem rótulos explícitos.
Ao contrário dos pipelines tradicionais ASR→LLM→TTS, o S2S processa a voz diretamente, preservando o tom, a emoção e a prosódia com menor latência.
Empatia Vocal: Detecta emoção no tom, ritmo, pausas e prosódia – não apenas palavras. A mesma frase que diz feliz vs triste recebe uma resposta diferente.
Mais detalhes👇
#TongyiFun
1/5
2/5 - Instrução da Fala Após Isso:
O Fun-Audio-Chat suporta o Seguimento de Instruções de Fala, permitindo que os usuários controlem atributos de geração de fala, como emoção, estilo de fala, velocidade, tom e volume por meio de comandos de voz naturais.
Exemplos:
→ "Fale como um comentarista de esports animado"
→ "Fale com uma voz raivosa, alta e aguda"
→ "Comece entediado, depois fique mais animado"
Role play, controle acústico, transições emocionais – tudo suportado.
3/5 - Inovação Central:
A maioria dos modelos de voz roda em taxas de quadros de 12,5-25Hz. O Fun-Audio-Chat utiliza Representações de Fala de Dupla Resolução para atingir 5Hz.
Resultado:
→ ~50% menos horas de GPU
→ Mesma qualidade de fala
→ Menor latência
Esse é o modelo S2S inovador de eficiência necessário.
4/5 - Chamada da Função da Fala:
Execute tarefas por comandos de voz naturais: "Defina um temporizador de foco de 25 minutos" ou "Navegue do campus Alibaba até o Zoológico de Hangzhou"
SOTA entre os modelos ~8B em OpenAudioBench, VoiceBench, UltraEval-Audio para:
→ Empatia Vocal
→ QA falado
→ Compreensão de áudio
→ Chamada de função
→ Seguir instruções
375
Melhores
Classificação
Favoritos
