DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Sprich mit deinem Portfolio. Wir haben gerade die Sprachfunktion für Muntze veröffentlicht: zwei Modi, dieselbe Eingabeleiste. Diktat: Tippe auf das Mikrofon, sprich, die Wörter erscheinen im Textfeld. Bearbeite, bevor du sendest. Die Antwort kommt als Text zurück. Gespräch: Tippe auf die Wellenform, sprich natürlich. Muntze hört zu, denkt nach und antwortet dir, während der Text gleichzeitig streamt. Der technische Teil, der zählt: Wir verwenden kein natives Audio-Modell. Wir haben eine Dual-Streaming-Pipeline entwickelt: deine Sprache trifft die Web Speech API, unser LLM verarbeitet sie, und Sonic synthetisiert die Antwort Satz für Satz, während die Tokens ankommen. Der erste Audio spielt in weniger als 400 ms ab, nachdem der erste Satz gebildet wurde. Die schwierigen Probleme, die wir gelöst haben: → Echo-Unterdrückung: STT pausiert während der Wiedergabe, damit Muntze seine eigene Stimme nicht transkribiert und ewig in einer Schleife bleibt. → Satzreihenfolge: TTS-Anfragen werden parallel für Geschwindigkeit ausgeführt, aber Audio wird in strikter Reihenfolge abgespielt. → Sprachkürze: Wenn du zuhörst, möchtest du keinen 2-minütigen Aufsatz. Der Agent wechselt automatisch zu 2-3 Satz langen Gesprächsantworten im Sprachmodus. Die gleiche Tiefe ist verfügbar, wenn du Nachfragen stellst. Zwei Symbole. Ein Tipp. Frag Muntze, wie es deinem Portfolio geht, und höre tatsächlich die Antwort, während du Kaffee machst.

Top

Ranking

Favoriten