Ora puoi generare discorsi in tempo reale che suonano conversazionali. Microsoft ha appena open-sourced VibeVoice, un sistema di sintesi vocale in tempo reale con ~300 ms di latenza audio iniziale e input in streaming. Gestisce lunghe conversazioni senza andare in crisi. 𝗤𝗨𝗘𝗦𝗧𝗢 𝗠𝗢𝗗𝗘𝗟𝗟𝗢 𝗚𝗘𝗡𝗘𝗥𝗔 𝗟𝗢𝗡𝗚𝗛𝗜, 𝗠𝗨𝗟𝗧𝗜-𝗦𝗣𝗘𝗔𝗞𝗘𝗥 𝗦𝗣𝗘𝗘𝗖𝗛. Produce fino a 90 minuti di audio. Supporta fino a quattro relatori distinti. Il turno di parola rimane costante durante lunghe sessioni. 𝗙𝗔𝗖𝗘 𝗖𝗢𝗦𝗜 𝗗𝗔 𝗥𝗘𝗗𝗨𝗖𝗘𝗡𝗗𝗢 𝗟𝗔 𝗥𝗘𝗦𝗢𝗟𝗨𝗭𝗜𝗢𝗡𝗘 𝗗𝗘𝗟 𝗧𝗜𝗠𝗣𝗢. L'audio si comprime in token semantici e acustici. Funzionano a 7,5 Hz invece di audio a livello di frame. Un modello linguistico prevede la struttura. Una testa di diffusione ripristina i dettagli acustici. 𝗜𝗧 𝗔𝗟𝗟𝗢𝗪𝗦 𝗟𝗢𝗪-𝗟𝗔𝗧𝗘𝗡𝗖𝗬 𝗦𝗧𝗥𝗘𝗔𝗠𝗜𝗡𝗚 𝗔𝗨𝗗𝗜𝗢. La variante in tempo reale trasmette il testo in modo incrementale. Il primo discorso arriva in ~300 ms. Una demo WebSocket mostra la generazione dal vivo. Il codice è con licenza MIT e solo per ricerca. Il repository ha già superato i 20k stelle su GitHub.