Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Du kan nå generere sanntidstale som høres samtaleaktig ut.
Microsoft har nettopp åpnet VibeVoice, et sanntids tekst-til-tale-system med ~300 ms første lydforsinkelse og strømmeinput.
Den håndterer lange samtaler uten å falle fra hverandre.
Denne modellen genererer lange, fler-talers tale.
Den produserer opptil 90 minutter med lyd.
Den støtter opptil fire distinkte høyttalere.
Tur-taking er konsekvent over lange økter.
Det fungerer ved å redusere tidsoppløsningen.
Lyd komprimeres til semantiske og akustiske tokens.
De kjører på 7,5 Hz i stedet for lyd på rammenivå.
En språkmodell forutsier struktur.
Et diffusjonshode gjenoppretter akustiske detaljer.
Den tillater strømming av lyd med lav forsinkelse.
Sanntidsvarianten strømmer teksten trinnvis.
Første tale kommer om ~300 ms.
En WebSocket-demo viser levende generasjon.
Koden er lisensiert av MIT og kun forskningsbasert.
Repoet har allerede passert 20 000 GitHub-stjerner.
1. Fant du dette nyttig? Ikke glem å følge med! Jeg poster daglig om AI-gjennombruddene alle utviklere trenger å vite.
2. Likes/retweets settes stor pris på.
3. Også verdt å sjekke: nyhetsbrevet, lest av 250 000+ AI-utviklere.
116
Topp
Rangering
Favoritter
