Parla con il tuo portafoglio. Abbiamo appena lanciato la voce su Muntze: due modalità, stessa barra di input. Dettatura: tocca il microfono, parla, le parole appaiono nel campo di testo. Modifica prima di inviare. La risposta arriva come testo. Conversazione: tocca l'onda sonora, parla naturalmente. Muntze ascolta, pensa, poi ti risponde mentre il testo scorre simultaneamente. La parte tecnica che conta: non stiamo usando un modello audio nativo. Abbiamo costruito un pipeline di streaming duale: la tua voce colpisce il Web Speech API, il nostro LLM la elabora, e Sonic sintetizza la risposta frase- per-frase man mano che i token arrivano. Il primo audio viene riprodotto in meno di 400 ms dopo che si forma la prima frase. I problemi difficili che abbiamo risolto: → Cancellazione dell'eco: STT si ferma durante la riproduzione in modo che Muntze non trascriva la propria voce e non entri in un loop infinito → Ordinamento delle frasi: le richieste TTS vengono attivate in parallelo per velocità, ma l'audio viene riprodotto in stretta sequenza → Brevità della voce: quando stai ascoltando, non vuoi un saggio di 2 minuti. L'agente passa automaticamente a risposte conversazionali di 2-3 frasi in modalità voce. Stessa profondità disponibile se fai domande di follow-up. Due icone. Un tocco. Chiedi a Muntze come sta andando il tuo portafoglio e ascolta realmente la risposta mentre prepari il caffè.