Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Du kan nu generera realtidstal som låter samtalsmässigt.
Microsoft har precis öppnat VibeVoice, ett realtidssystem för text-till-tal med ~300 ms förstaljudsfördröjning och strömningsingång.
Den hanterar långa samtal utan att falla isär.
Denna modell genererar långa, flertalade tal.
Den producerar upp till 90 minuters ljud.
Den stöder upp till fyra olika högtalare.
Turordningen är konsekvent under långa sessioner.
Det fungerar genom att minska tidsupplösningen.
Ljud komprimeras till semantiska och akustiska tokens.
De körs på 7,5 Hz istället för bildnivåljud.
En språkmodell förutsäger struktur.
Ett diffusionshuvud återställer akustisk detaljrikedom.
Den möjliggör strömmande ljud med låg latens.
Realtidsvarianten strömmar text stegvis.
Första talet kommer om ~300 ms.
En WebSocket-demo visar live-generering.
Koden är MIT-licensierad och endast forskningsinriktad.
Repoet har redan passerat 20 000 GitHub-stjärnor.
1. Tyckte du att detta var användbart? Glöm inte att följa! Jag postar dagligen om AI-genombrott som varje utvecklare behöver känna till.
2. Gilla/retweets uppskattas mycket.
3. Värt att kolla upp: nyhetsbrevet, läst av 250 000+ AI-utvecklare.
87
Topp
Rankning
Favoriter
