Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ora puoi generare discorsi in tempo reale che suonano conversazionali.
Microsoft ha appena open-sourced VibeVoice, un sistema di sintesi vocale in tempo reale con ~300 ms di latenza audio iniziale e input in streaming.
Gestisce lunghe conversazioni senza andare in crisi.
𝗤𝗨𝗘𝗦𝗧𝗢 𝗠𝗢𝗗𝗘𝗟𝗟𝗢 𝗚𝗘𝗡𝗘𝗥𝗔 𝗟𝗢𝗡𝗚𝗛𝗜, 𝗠𝗨𝗟𝗧𝗜-𝗦𝗣𝗘𝗔𝗞𝗘𝗥 𝗦𝗣𝗘𝗘𝗖𝗛.
Produce fino a 90 minuti di audio.
Supporta fino a quattro relatori distinti.
Il turno di parola rimane costante durante lunghe sessioni.
𝗙𝗔𝗖𝗘 𝗖𝗢𝗦𝗜 𝗗𝗔 𝗥𝗘𝗗𝗨𝗖𝗘𝗡𝗗𝗢 𝗟𝗔 𝗥𝗘𝗦𝗢𝗟𝗨𝗭𝗜𝗢𝗡𝗘 𝗗𝗘𝗟 𝗧𝗜𝗠𝗣𝗢.
L'audio si comprime in token semantici e acustici.
Funzionano a 7,5 Hz invece di audio a livello di frame.
Un modello linguistico prevede la struttura.
Una testa di diffusione ripristina i dettagli acustici.
𝗜𝗧 𝗔𝗟𝗟𝗢𝗪𝗦 𝗟𝗢𝗪-𝗟𝗔𝗧𝗘𝗡𝗖𝗬 𝗦𝗧𝗥𝗘𝗔𝗠𝗜𝗡𝗚 𝗔𝗨𝗗𝗜𝗢.
La variante in tempo reale trasmette il testo in modo incrementale.
Il primo discorso arriva in ~300 ms.
Una demo WebSocket mostra la generazione dal vivo.
Il codice è con licenza MIT e solo per ricerca.
Il repository ha già superato i 20k stelle su GitHub.
Principali
Ranking
Preferiti
