Możesz teraz generować mową w czasie rzeczywistym, która brzmi konwersacyjnie. Microsoft właśnie udostępnił VibeVoice jako open-source, system tekst-na-mowę w czasie rzeczywistym z opóźnieniem pierwszego dźwięku wynoszącym ~300 ms i strumieniowym wejściem. Radzi sobie z długimi rozmowami, nie rozpadając się. 𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. Produkuje do 90 minut dźwięku. Obsługuje do czterech różnych mówców. Przejmowanie głosu pozostaje spójne przez długie sesje. 𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. Dźwięk kompresuje się w semantyczne i akustyczne tokeny. Działają z częstotliwością 7,5 Hz zamiast dźwięku na poziomie klatki. Model językowy przewiduje strukturę. Głowica dyfuzji przywraca szczegóły akustyczne. 𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. Wariant w czasie rzeczywistym strumieniuje tekst stopniowo. Pierwsza mowa pojawia się w ~300 ms. Demo WebSocket pokazuje generację na żywo. Kod jest licencjonowany na zasadzie MIT i przeznaczony tylko do badań. Repozytorium już zdobyło 20k gwiazdek na GitHubie.
1. Uważasz to za przydatne? Nie zapomnij zaobserwować! Codziennie publikuję o przełomach w AI, które każdy programista powinien znać. 2. Polubienia/retweety są bardzo doceniane. 3. Warto również sprawdzić: newsletter, który czyta ponad 250 tys. programistów AI.
101