Du kan nå generere sanntidstale som høres samtaleaktig ut. Microsoft har nettopp åpnet VibeVoice, et sanntids tekst-til-tale-system med ~300 ms første lydforsinkelse og strømmeinput. Den håndterer lange samtaler uten å falle fra hverandre. Denne modellen genererer lange, fler-talers tale. Den produserer opptil 90 minutter med lyd. Den støtter opptil fire distinkte høyttalere. Tur-taking er konsekvent over lange økter. Det fungerer ved å redusere tidsoppløsningen. Lyd komprimeres til semantiske og akustiske tokens. De kjører på 7,5 Hz i stedet for lyd på rammenivå. En språkmodell forutsier struktur. Et diffusjonshode gjenoppretter akustiske detaljer. Den tillater strømming av lyd med lav forsinkelse. Sanntidsvarianten strømmer teksten trinnvis. Første tale kommer om ~300 ms. En WebSocket-demo viser levende generasjon. Koden er lisensiert av MIT og kun forskningsbasert. Repoet har allerede passert 20 000 GitHub-stjerner.
1. Fant du dette nyttig? Ikke glem å følge med! Jeg poster daglig om AI-gjennombruddene alle utviklere trenger å vite. 2. Likes/retweets settes stor pris på. 3. Også verdt å sjekke: nyhetsbrevet, lest av 250 000+ AI-utviklere.
116