@MistralAIによる次世代音声翻訳モデル、Voxtral Transcribe 2をご紹介します。 最先端の文字起こし、話者のディアリゼーション、リアルタイムレイテンシー200ms未満。 詳細は以下の通りです 🧵
Voxtral Realtimeは、音声エージェントやライブアプリケーション向けに構築されています。ネイティブストリーミングアーキテクチャにより、遅延は200ms未満まで設定可能です。480msで、オフラインモデルの1〜2%以内のWER(約1〜2%のWER)にとどまります。モデルはApache 2.0の下でオープンウェイトとしてリリースしています。
Mistral Studioの新しいオーディオプレイグラウンドでVoxtral Mini Transcribe 2を試し始めましょう。ファイルのアップロード、日誌の切り替え、コンテキストバイアスの追加、即時の文字起こし。
現在入手可能です。Mini Transcribe 2はAPI経由で$0.003/分でご利用いただけます。API経由で0.006ドル/分のリアルタイムで、オープンウェイトも含めて。 始めましょう→
46