Parlez à votre portefeuille. Nous venons de déployer la voix sur Muntze : deux modes, même barre d'entrée. Dictée : appuyez sur le micro, parlez, les mots apparaissent dans le champ de texte. Modifiez avant d'envoyer. La réponse revient sous forme de texte. Conversation : appuyez sur la forme d'onde, parlez naturellement. Muntze écoute, réfléchit, puis vous répond pendant que le texte est diffusé simultanément. La partie technique qui compte : nous n'utilisons pas de modèle audio natif. Nous avons construit un pipeline de double diffusion : votre discours atteint l'API Web Speech, notre LLM le traite, et Sonic synthétise la réponse phrase par phrase au fur et à mesure que les tokens arrivent. Le premier audio se joue en moins de 400 ms après la formation de la première phrase. Les problèmes difficiles que nous avons résolus : → Annulation d'écho : la STT se met en pause pendant la lecture afin que Muntze ne transcrive pas sa propre voix et ne boucle pas indéfiniment → Ordonnancement des phrases : les requêtes TTS se déclenchent en parallèle pour la rapidité, mais l'audio se joue dans un ordre strict → Brièveté de la voix : lorsque vous écoutez, vous ne voulez pas d'un essai de 2 minutes. L'agent passe automatiquement à des réponses conversationnelles de 2-3 phrases en mode voix. La même profondeur est disponible si vous posez des questions de suivi. Deux icônes. Un tap. Demandez à Muntze comment va votre portefeuille et entendez réellement la réponse pendant que vous préparez votre café.