Nyní můžete generovat řeč v reálném čase, která zní konverzačně. Microsoft právě otevřel VibeVoice, systém pro převod textu na řeč v reálném čase s první zvukovou latencí a streamováním ~300 ms. Zvládá dlouhé rozhovory, aniž by se rozpadla. Tento model generuje dlouhou řeč s více mluvčími (multispeakers). Produkuje až 90 minut zvuku. Podporuje až čtyři odlišné reproduktory. Střídání zůstává konzistentní i po dlouhé sezení. Funguje to tak, že snižuje časové rozlišení. Zvuk se komprimuje do sémantických a akustických tokenů. Běží na 7,5 Hz místo zvuku na úrovni snímků. Jazykový model předpovídá strukturu. Difuzní hlava obnovuje akustické detaily. Umožňuje streamování zvuku s nízkou latencí. Varianta v reálném čase streamuje text postupně. První projev přichází za ~300 ms. WebSocket demo ukazuje živou generaci. Kód je licencován MIT a pouze výzkumný. Repozitář už překročil 20 tisíc GitHub hvězd.
1. Přišlo vám to užitečné? Nezapomeňte je sledovat! Denně zveřejňuji o průlomech v AI, které by každý vývojář měl znát. 2. Lajky/retweety jsou velmi vítány. 3. Stojí také za zvážení: newsletter, který čte 250 tisíc+ AI vývojářů.
104