Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Agora pode gerar fala em tempo real que soa conversacional.
A Microsoft acaba de abrir o código do VibeVoice, um sistema de texto-para-fala em tempo real com ~300 ms de latência de áudio inicial e entrada de streaming.
Ele lida com longas conversas sem desmoronar.
𝗘𝘀𝘁𝗲 𝗺𝗼𝗱𝗲𝗹𝗼 𝗴𝗲𝗻𝗲𝗿𝗮 𝗳𝗮𝗹𝗮 𝗹𝗼𝗻𝗴𝗮 𝗲 𝗺𝘂𝗹𝘁𝗶-𝗽𝗮𝗿𝗹𝗮𝗻𝘁𝗲.
Produz até 90 minutos de áudio.
Suporta até quatro falantes distintos.
A troca de turnos permanece consistente ao longo de longas sessões.
𝗘𝘀𝘁𝗲 𝗺𝗼𝗱𝗲𝗹𝗼 𝗮𝗰𝘁𝘂𝗮 𝗿𝗲𝗱𝘂𝘇𝗶𝗻𝗱𝗼 𝗮 𝗿𝗲𝘀𝗼𝗹𝘂𝗰𝗶𝗼 𝗱𝗼 𝘁𝗲𝗺𝗽𝗼.
O áudio é comprimido em tokens semânticos e acústicos.
Eles operam a 7,5 Hz em vez de áudio em nível de quadro.
Um modelo de linguagem prevê a estrutura.
Uma cabeça de difusão restaura o detalhe acústico.
𝗜𝘀𝘁𝗼 𝗽𝗲𝗿𝗺𝗶𝘁𝗲 𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗱𝗲 𝗮𝘂𝗱𝗶𝗼 𝗰𝗼𝗺 𝗹𝗮𝘁𝗲𝗻𝗰𝗶𝗮 𝗳𝗮𝗹𝗮.
A variante em tempo real transmite texto de forma incremental.
A primeira fala chega em ~300 ms.
Uma demonstração WebSocket mostra geração ao vivo.
O código é licenciado sob MIT e é apenas para pesquisa.
O repositório já passou de 20k estrelas no GitHub.
Top
Classificação
Favoritos
