Agora você pode gerar fala em tempo real que soa conversacional. A Microsoft acabou de abrir o VibeVoice, um sistema de texto para fala em tempo real com ~300 ms de latência inicial de áudio e entrada de streaming. Ele lida com conversas longas sem desmoronar. Esse modelo gera fala longa e com múltiplos alto-falantes. Ele produz até 90 minutos de áudio. Ele suporta até quatro alto-falantes distintos. A turnação permanece consistente em sessões longas. Funciona reduzindo a resolução de tempo. O áudio se comprime em tokens semânticos e acústicos. Eles rodam a 7,5 Hz em vez de áudio em nível de quadro. Um modelo de linguagem prevê estrutura. Uma cabeça de difusão restaura detalhes acústicos. Ele permite áudio em streaming de baixa latência. A variante em tempo real transmite texto de forma incremental. O primeiro discurso chega em ~300 ms. Uma demonstração do WebSocket mostra geração ao vivo. O código é licenciado pelo MIT e apenas para pesquisa. O repositório já passou de 20 mil estrelas no GitHub.