Vorbește cu portofoliul tău. Tocmai am trimis vocea către Muntze: două moduri, aceeași bară de intrare. Dictare: bate la microfon, vorbește, cuvintele apar în câmpul text. Editare înainte de a trimite. Răspunsul a venit sub formă de mesaj. Conversație: atinge forma de undă, vorbește natural. Muntze ascultă, gândește, apoi îți răspunde în timp ce mesajul scrie transmite simultan. Partea tehnică care contează: nu folosim un model audio nativ. Am construit un pipeline dual-streaming: vorbirea ta ajunge la Web Speech API, LLM-ul nostru o procesează, iar Sonic sintetizează propoziția de răspuns- propoziție pe măsură ce sosesc jetoane. Primul audio se redă în mai puțin de 400ms după primele forme de propoziție. Problemele dificile pe care le-am rezolvat: → Anulare ecou: STT pune pauză în timpul redării pentru ca Muntze să nu-și transcrie propria voce și să repete bucla la nesfârșit → Ordinea propozițiilor: Cererile TTS se activează în paralel pentru viteză, dar sunetul se redă în ordine strictă → Pe scurt: când asculți, nu vrei un eseu de 2 minute. Agentul trece automat la Răspunsuri conversaționale de 2-3 propoziții în modul vocal. Aceeași profunzime disponibilă dacă întrebi întrebări suplimentare. Două icoane. O singură atingere. Întreabă-l pe Muntze cum merge portofoliul tău și chiar ascultă răspunsul în timp ce faci Cafea.