ポートフォリオについて話し合いましょう。 私たちは最近Muntzeに音声を出荷しました:2つのモード、同じ入力バーです。 音声入力:マイクをタップし、話すとテキストフィールドに単語が表示されます。送信前に追記してください。返事はテキストで返ってきます。 会話:タップ波形、自然に話す。ムンツェは聞き、考え、そしてテキストで返事をします 同時に配信。 重要な技術的な部分は、ネイティブのオーディオモデルを使っていないことです。私たちはデュアルストリーミングパイプラインを構築しました: あなたの音声がWeb Speech APIに到達し、私たちのLLMが処理し、ソニックが応答文を合成します— トークンが届くときのバイセンテンス。最初の音声は最初の文の形から400ms未満で再生されます。 私たちが解決した難しい問題: → エコーキャンセル:STTは再生中に一時停止し、Muntzeが自分の声を永遠に書き起こしてループしないようにします → 文の順序:TTSリクエストは速度のために並列で送信されますが、音声は厳密な順序で再生されます → 声の簡潔さ:聞いているときは、2分間のエッセイは望まない。エージェントは自動的に に切り替えます。 音声モードでの2〜3文の会話応答。 フォローアップを尋ねれば同じ深さで対応できます。 二つのアイコン。一発で。ポートフォリオの進捗をムンツェに聞いて、実際に作りながら答えを聞いてみてください コーヒー。