Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Fale com o seu portfólio. Acabámos de lançar a funcionalidade de voz para o Muntze: dois modos, mesma barra de entrada. Ditado: toque no microfone, fale, as palavras aparecem no campo de texto. Edite antes de enviar. A resposta chega como texto. Conversa: toque na forma de onda, fale naturalmente. O Muntze ouve, pensa, e depois responde enquanto o texto é transmitido simultaneamente. A parte técnica que importa: não estamos usando um modelo de áudio nativo. Construímos um pipeline de streaming duplo: a sua fala atinge a Web Speech API, nosso LLM a processa, e o Sonic sintetiza a resposta frase- por-frase à medida que os tokens chegam. O primeiro áudio é reproduzido em menos de 400ms após a primeira frase ser formada. Os problemas difíceis que resolvemos: → Cancelamento de eco: o STT pausa durante a reprodução para que o Muntze não transcreva sua própria voz e não entre em um loop eterno → Ordenação de frases: os pedidos de TTS são feitos em paralelo para velocidade, mas o áudio é reproduzido em sequência estrita → Brevidade da voz: quando você está ouvindo, não quer um ensaio de 2 minutos. O agente muda automaticamente para respostas conversacionais de 2-3 frases no modo de voz. A mesma profundidade está disponível se você fizer perguntas de acompanhamento. Dois ícones. Um toque. Pergunte ao Muntze como está o seu portfólio e ouça a resposta enquanto faz café.

Top

Classificação

Favoritos