Porozmawiaj ze swoim portfelem. Właśnie wprowadziliśmy głos do Muntze: dwa tryby, ten sam pasek wejściowy. Dyktowanie: dotknij mikrofonu, mów, a słowa pojawią się w polu tekstowym. Edytuj przed wysłaniem. Odpowiedź wraca jako tekst. Rozmowa: dotknij fali dźwiękowej, mów naturalnie. Muntze słucha, myśli, a następnie odpowiada, podczas gdy tekst jest przesyłany jednocześnie. Część techniczna, która ma znaczenie: nie używamy natywnego modelu audio. Zbudowaliśmy podwójny strumień: Twoja mowa trafia do Web Speech API, nasz LLM ją przetwarza, a Sonic syntezysuje odpowiedź zdanie- po-zdaniu, gdy tokeny przychodzą. Pierwszy dźwięk odtwarzany jest w mniej niż 400 ms po uformowaniu pierwszego zdania. Trudne problemy, które rozwiązaliśmy: → Anulowanie echa: STT wstrzymuje się podczas odtwarzania, aby Muntze nie transkrybował własnego głosu i nie zapętlał się w nieskończoność → Kolejność zdań: żądania TTS są uruchamiane równolegle dla szybkości, ale dźwięk odtwarzany jest w ścisłej kolejności → Zwięzłość głosu: gdy słuchasz, nie chcesz 2-minutowego eseju. Agent automatycznie przełącza się na 2-3 zdaniowe odpowiedzi konwersacyjne w trybie głosowym. Ta sama głębokość dostępna, jeśli zadasz pytania dodatkowe. Dwie ikony. Jedno dotknięcie. Zapytaj Muntze, jak radzi sobie twój portfel i rzeczywiście usłysz odpowiedź, podczas gdy parzysz kawę.