Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Fale com o seu portfólio.
Acabámos de lançar a funcionalidade de voz para o Muntze: dois modos, mesma barra de entrada.
Ditado: toque no microfone, fale, as palavras aparecem no campo de texto. Edite antes de enviar. A resposta chega como texto.
Conversa: toque na forma de onda, fale naturalmente. O Muntze ouve, pensa, e depois responde enquanto o texto
é transmitido simultaneamente.
A parte técnica que importa: não estamos usando um modelo de áudio nativo. Construímos um pipeline de streaming duplo:
a sua fala atinge a Web Speech API, nosso LLM a processa, e o Sonic sintetiza a resposta frase-
por-frase à medida que os tokens chegam. O primeiro áudio é reproduzido em menos de 400ms após a primeira frase ser formada.
Os problemas difíceis que resolvemos:
→ Cancelamento de eco: o STT pausa durante a reprodução para que o Muntze não transcreva sua própria voz e não entre em um loop eterno
→ Ordenação de frases: os pedidos de TTS são feitos em paralelo para velocidade, mas o áudio é reproduzido em sequência estrita
→ Brevidade da voz: quando você está ouvindo, não quer um ensaio de 2 minutos. O agente muda automaticamente para
respostas conversacionais de 2-3 frases no modo de voz.
A mesma profundidade está disponível se você fizer perguntas de acompanhamento.
Dois ícones. Um toque. Pergunte ao Muntze como está o seu portfólio e ouça a resposta enquanto faz
café.
Top
Classificação
Favoritos
