Agora você pode gerar fala em tempo real que soa conversacional. A Microsoft acabou de abrir o VibeVoice, um sistema de texto para fala em tempo real com ~300 ms de latência inicial de áudio e entrada de streaming. Ele lida com conversas longas sem desmoronar. Esse modelo gera fala longa e com múltiplos alto-falantes. Ele produz até 90 minutos de áudio. Ele suporta até quatro alto-falantes distintos. A turnação permanece consistente em sessões longas. Funciona reduzindo a resolução de tempo. O áudio se comprime em tokens semânticos e acústicos. Eles rodam a 7,5 Hz em vez de áudio em nível de quadro. Um modelo de linguagem prevê estrutura. Uma cabeça de difusão restaura detalhes acústicos. Ele permite áudio em streaming de baixa latência. A variante em tempo real transmite texto de forma incremental. O primeiro discurso chega em ~300 ms. Uma demonstração do WebSocket mostra geração ao vivo. O código é licenciado pelo MIT e apenas para pesquisa. O repositório já passou de 20 mil estrelas no GitHub.
1. Achou isso útil? Não esqueça de seguir! Eu posto diariamente sobre os avanços em IA que todo desenvolvedor precisa saber. 2. Curtidas ou retweets são muito bem-vindas. 3. Também vale a pena conferir: a newsletter, lida por 250 mil desenvolvedores de IA.
194