Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je kunt nu real-time spraak genereren die conversatieachtig klinkt.
Microsoft heeft VibeVoice open-source gemaakt, een real-time tekst-naar-spraak systeem met ~300 ms eerste audio-latentie en streaminginvoer.
Het kan lange gesprekken aan zonder in te storten.
𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵.
Het produceert tot 90 minuten audio.
Het ondersteunt tot vier verschillende sprekers.
De beurtwisseling blijft consistent over lange sessies.
𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻.
Audio wordt gecomprimeerd in semantische en akoestische tokens.
Ze draaien op 7,5 Hz in plaats van frame-niveau audio.
Een taalmodel voorspelt de structuur.
Een diffusiekop herstelt akoestische details.
𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼.
De real-time variant streamt tekst incrementeel.
De eerste spraak arriveert in ~300 ms.
Een WebSocket-demo toont live generatie.
De code is MIT-gelicentieerd en alleen voor onderzoek.
De repo heeft al meer dan 20k GitHub-sterren.
1. Vond je dit nuttig? Vergeet niet te volgen! Ik post dagelijks over de AI-doorbraken die elke ontwikkelaar moet weten.
2. Likes/retweets worden zeer gewaardeerd.
3. Ook de moeite waard om te bekijken: de nieuwsbrief, gelezen door 250k+ AI-ontwikkelaars.
107
Boven
Positie
Favorieten
