Agora pode gerar fala em tempo real que soa conversacional. A Microsoft acaba de abrir o código do VibeVoice, um sistema de texto-para-fala em tempo real com ~300 ms de latência de áudio inicial e entrada de streaming. Ele lida com longas conversas sem desmoronar. 𝗘𝘀𝘁𝗲 𝗺𝗼𝗱𝗲𝗹𝗼 𝗴𝗲𝗻𝗲𝗿𝗮 𝗳𝗮𝗹𝗮 𝗹𝗼𝗻𝗴𝗮 𝗲 𝗺𝘂𝗹𝘁𝗶-𝗽𝗮𝗿𝗹𝗮𝗻𝘁𝗲. Produz até 90 minutos de áudio. Suporta até quatro falantes distintos. A troca de turnos permanece consistente ao longo de longas sessões. 𝗘𝘀𝘁𝗲 𝗺𝗼𝗱𝗲𝗹𝗼 𝗮𝗰𝘁𝘂𝗮 𝗿𝗲𝗱𝘂𝘇𝗶𝗻𝗱𝗼 𝗮 𝗿𝗲𝘀𝗼𝗹𝘂𝗰𝗶𝗼 𝗱𝗼 𝘁𝗲𝗺𝗽𝗼. O áudio é comprimido em tokens semânticos e acústicos. Eles operam a 7,5 Hz em vez de áudio em nível de quadro. Um modelo de linguagem prevê a estrutura. Uma cabeça de difusão restaura o detalhe acústico. 𝗜𝘀𝘁𝗼 𝗽𝗲𝗿𝗺𝗶𝘁𝗲 𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗱𝗲 𝗮𝘂𝗱𝗶𝗼 𝗰𝗼𝗺 𝗹𝗮𝘁𝗲𝗻𝗰𝗶𝗮 𝗳𝗮𝗹𝗮. A variante em tempo real transmite texto de forma incremental. A primeira fala chega em ~300 ms. Uma demonstração WebSocket mostra geração ao vivo. O código é licenciado sob MIT e é apenas para pesquisa. O repositório já passou de 20k estrelas no GitHub.