Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ahora puedes generar un habla en tiempo real que suene conversacional.
Microsoft acaba de abrir el código VibeVoice, un sistema de texto a voz en tiempo real con ~300 ms de latencia de audio y entrada en streaming.
Gestiona largas conversaciones sin desmoronarse.
Este modelo genera un habla larga y con múltiples altavoces.
Produce hasta 90 minutos de audio.
Soporta hasta cuatro altavoces distintos.
El turno se mantiene constante durante sesiones largas.
Funciona reduciendo la resolución temporal.
El audio se comprime en tokens semánticos y acústicos.
Funcionan a 7,5 Hz en lugar de audio a nivel de fotograma.
Un modelo de lenguaje predice la estructura.
Un cabezal de difusión restaura el detalle acústico.
Permite audio en streaming con baja latencia.
La variante en tiempo real transmite el texto de forma incremental.
El primer discurso llega en ~300 ms.
Una demo de WebSocket muestra generación en vivo.
El código está licenciado por el MIT y solo es de investigación.
El repositorio ya superó las 20.000 estrellas en GitHub.
1. ¿Te resultó útil? ¡No olvides seguir! Publico a diario sobre los avances en IA que todo desarrollador necesita conocer.
2. Los likes/retuits son muy apreciados.
3. También merece la pena consultar: el boletín, leído por 250.000+ desarrolladores de IA.
193
Populares
Ranking
Favoritas
