Promluvte si se svým portfoliem. Právě jsme poslali hlas do Muntze: dva režimy, stejný vstupní panel. Diktování: ťukání na mikrofon, mluvení, slova se objevují v textovém poli. Upravte před odesláním. Odpověď přišla ve formě textové zprávy. Konverzace: klepněte na vlnu, mluvte přirozeně. Muntze poslouchá, přemýšlí, pak ti odpovídá, zatímco text streamuje současně. Důležitá je technická stránka: nepoužíváme nativní audio model. Vybudovali jsme duální streamovací pipeline: vaše řeč se dostane do Web Speech API, náš LLM ji zpracuje a Sonic syntetizuje odpověď větu- Větou, jak přicházejí žetony. První audio se přehrává za méně než 400 ms po vytvoření první věty. Těžké problémy, které jsme vyřešili: → Potlačení ozvěny: STT během přehrávání pozastaví, aby Muntze nepřepsal svůj vlastní hlas a neopakoval smyčku donekonečna → Pořadí vět: TTS požaduje paralelní spuštění pro rychlost, ale zvuk se přehrává v přísném pořadí → Stručnost hlasu: když posloucháte, nechcete dvouminutovou esej. Agent automaticky přepne na Konverzační odpovědi na 2-3 věty v hlasovém režimu. Stejně tak důkladně je dostupná, pokud se zeptáte na další dotazy. Dvě ikony. Jeden klep. Zeptejte se Muntzeho, jak si daří vašemu portfoliu, a skutečně slyšte odpověď během vydělávání kávu.