Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nyní můžete generovat řeč v reálném čase, která zní konverzačně.
Microsoft právě otevřel VibeVoice, systém pro převod textu na řeč v reálném čase s první zvukovou latencí a streamováním ~300 ms.
Zvládá dlouhé rozhovory, aniž by se rozpadla.
Tento model generuje dlouhou řeč s více mluvčími (multispeakers).
Produkuje až 90 minut zvuku.
Podporuje až čtyři odlišné reproduktory.
Střídání zůstává konzistentní i po dlouhé sezení.
Funguje to tak, že snižuje časové rozlišení.
Zvuk se komprimuje do sémantických a akustických tokenů.
Běží na 7,5 Hz místo zvuku na úrovni snímků.
Jazykový model předpovídá strukturu.
Difuzní hlava obnovuje akustické detaily.
Umožňuje streamování zvuku s nízkou latencí.
Varianta v reálném čase streamuje text postupně.
První projev přichází za ~300 ms.
WebSocket demo ukazuje živou generaci.
Kód je licencován MIT a pouze výzkumný.
Repozitář už překročil 20 tisíc GitHub hvězd.
1. Přišlo vám to užitečné? Nezapomeňte je sledovat! Denně zveřejňuji o průlomech v AI, které by každý vývojář měl znát.
2. Lajky/retweety jsou velmi vítány.
3. Stojí také za zvážení: newsletter, který čte 250 tisíc+ AI vývojářů.
104
Top
Hodnocení
Oblíbené
