Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Możesz teraz generować mową w czasie rzeczywistym, która brzmi konwersacyjnie.
Microsoft właśnie udostępnił VibeVoice jako open-source, system tekst-na-mowę w czasie rzeczywistym z opóźnieniem pierwszego dźwięku wynoszącym ~300 ms i strumieniowym wejściem.
Radzi sobie z długimi rozmowami, nie rozpadając się.
𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵.
Produkuje do 90 minut dźwięku.
Obsługuje do czterech różnych mówców.
Przejmowanie głosu pozostaje spójne przez długie sesje.
𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻.
Dźwięk kompresuje się w semantyczne i akustyczne tokeny.
Działają z częstotliwością 7,5 Hz zamiast dźwięku na poziomie klatki.
Model językowy przewiduje strukturę.
Głowica dyfuzji przywraca szczegóły akustyczne.
𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼.
Wariant w czasie rzeczywistym strumieniuje tekst stopniowo.
Pierwsza mowa pojawia się w ~300 ms.
Demo WebSocket pokazuje generację na żywo.
Kod jest licencjonowany na zasadzie MIT i przeznaczony tylko do badań.
Repozytorium już zdobyło 20k gwiazdek na GitHubie.
1. Uważasz to za przydatne? Nie zapomnij zaobserwować! Codziennie publikuję o przełomach w AI, które każdy programista powinien znać.
2. Polubienia/retweety są bardzo doceniane.
3. Warto również sprawdzić: newsletter, który czyta ponad 250 tys. programistów AI.
101
Najlepsze
Ranking
Ulubione
