分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

ポートフォリオについて話し合いましょう。私たちは最近Muntzeに音声を出荷しました:2つのモード、同じ入力バーです。音声入力:マイクをタップし、話すとテキストフィールドに単語が表示されます。送信前に追記してください。返事はテキストで返ってきます。会話:タップ波形、自然に話す。ムンツェは聞き、考え、そしてテキストで返事をします同時に配信。重要な技術的な部分は、ネイティブのオーディオモデルを使っていないことです。私たちはデュアルストリーミングパイプラインを構築しました: あなたの音声がWeb Speech APIに到達し、私たちのLLMが処理し、ソニックが応答文を合成します— トークンが届くときのバイセンテンス。最初の音声は最初の文の形から400ms未満で再生されます。私たちが解決した難しい問題: → エコーキャンセル:STTは再生中に一時停止し、Muntzeが自分の声を永遠に書き起こしてループしないようにします → 文の順序:TTSリクエストは速度のために並列で送信されますが、音声は厳密な順序で再生されます → 声の簡潔さ:聞いているときは、2分間のエッセイは望まない。エージェントは自動的にに切り替えます。音声モードでの2〜3文の会話応答。フォローアップを尋ねれば同じ深さで対応できます。二つのアイコン。一発で。ポートフォリオの進捗をムンツェに聞いて、実際に作りながら答えを聞いてみてくださいコーヒー。

トップ

ランキング

お気に入り