Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vorbește cu portofoliul tău.
Tocmai am trimis vocea către Muntze: două moduri, aceeași bară de intrare.
Dictare: bate la microfon, vorbește, cuvintele apar în câmpul text. Editare înainte de a trimite. Răspunsul a venit sub formă de mesaj.
Conversație: atinge forma de undă, vorbește natural. Muntze ascultă, gândește, apoi îți răspunde în timp ce mesajul scrie
transmite simultan.
Partea tehnică care contează: nu folosim un model audio nativ. Am construit un pipeline dual-streaming:
vorbirea ta ajunge la Web Speech API, LLM-ul nostru o procesează, iar Sonic sintetizează propoziția de răspuns-
propoziție pe măsură ce sosesc jetoane. Primul audio se redă în mai puțin de 400ms după primele forme de propoziție.
Problemele dificile pe care le-am rezolvat:
→ Anulare ecou: STT pune pauză în timpul redării pentru ca Muntze să nu-și transcrie propria voce și să repete bucla la nesfârșit
→ Ordinea propozițiilor: Cererile TTS se activează în paralel pentru viteză, dar sunetul se redă în ordine strictă
→ Pe scurt: când asculți, nu vrei un eseu de 2 minute. Agentul trece automat la
Răspunsuri conversaționale de 2-3 propoziții în modul vocal.
Aceeași profunzime disponibilă dacă întrebi întrebări suplimentare.
Două icoane. O singură atingere. Întreabă-l pe Muntze cum merge portofoliul tău și chiar ascultă răspunsul în timp ce faci
Cafea.
Limită superioară
Clasament
Favorite
