Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Porozmawiaj ze swoim portfelem.
Właśnie wprowadziliśmy głos do Muntze: dwa tryby, ten sam pasek wejściowy.
Dyktowanie: dotknij mikrofonu, mów, a słowa pojawią się w polu tekstowym. Edytuj przed wysłaniem. Odpowiedź wraca jako tekst.
Rozmowa: dotknij fali dźwiękowej, mów naturalnie. Muntze słucha, myśli, a następnie odpowiada, podczas gdy tekst
jest przesyłany jednocześnie.
Część techniczna, która ma znaczenie: nie używamy natywnego modelu audio. Zbudowaliśmy podwójny strumień:
Twoja mowa trafia do Web Speech API, nasz LLM ją przetwarza, a Sonic syntezysuje odpowiedź zdanie-
po-zdaniu, gdy tokeny przychodzą. Pierwszy dźwięk odtwarzany jest w mniej niż 400 ms po uformowaniu pierwszego zdania.
Trudne problemy, które rozwiązaliśmy:
→ Anulowanie echa: STT wstrzymuje się podczas odtwarzania, aby Muntze nie transkrybował własnego głosu i nie zapętlał się w nieskończoność
→ Kolejność zdań: żądania TTS są uruchamiane równolegle dla szybkości, ale dźwięk odtwarzany jest w ścisłej kolejności
→ Zwięzłość głosu: gdy słuchasz, nie chcesz 2-minutowego eseju. Agent automatycznie przełącza się na
2-3 zdaniowe odpowiedzi konwersacyjne w trybie głosowym.
Ta sama głębokość dostępna, jeśli zadasz pytania dodatkowe.
Dwie ikony. Jedno dotknięcie. Zapytaj Muntze, jak radzi sobie twój portfel i rzeczywiście usłysz odpowiedź, podczas gdy parzysz kawę.
Najlepsze
Ranking
Ulubione
