トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ポートフォリオについて話し合いましょう。
私たちは最近Muntzeに音声を出荷しました:2つのモード、同じ入力バーです。
音声入力:マイクをタップし、話すとテキストフィールドに単語が表示されます。送信前に追記してください。返事はテキストで返ってきます。
会話:タップ波形、自然に話す。ムンツェは聞き、考え、そしてテキストで返事をします
同時に配信。
重要な技術的な部分は、ネイティブのオーディオモデルを使っていないことです。私たちはデュアルストリーミングパイプラインを構築しました:
あなたの音声がWeb Speech APIに到達し、私たちのLLMが処理し、ソニックが応答文を合成します—
トークンが届くときのバイセンテンス。最初の音声は最初の文の形から400ms未満で再生されます。
私たちが解決した難しい問題:
→ エコーキャンセル:STTは再生中に一時停止し、Muntzeが自分の声を永遠に書き起こしてループしないようにします
→ 文の順序:TTSリクエストは速度のために並列で送信されますが、音声は厳密な順序で再生されます
→ 声の簡潔さ:聞いているときは、2分間のエッセイは望まない。エージェントは自動的に に切り替えます。
音声モードでの2〜3文の会話応答。
フォローアップを尋ねれば同じ深さで対応できます。
二つのアイコン。一発で。ポートフォリオの進捗をムンツェに聞いて、実際に作りながら答えを聞いてみてください
コーヒー。
トップ
ランキング
お気に入り
