分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Inworld TTS 1 Max は、MiniMax の Speech-02 シリーズと OpenAI の TTS-1 シリーズを上回り、人工分析音声アリーナリーダーボードの新たなリーダーになりました Artificial Analysis Speech Arena は、人間の好みに基づいて主要なテキスト読み上げモデルをランク付けします。アリーナでは、ユーザーは生成された 2 つの音声を並べて比較し、どのモデルが作成したかを知らずに好みの出力を選択します。スピーチアリーナには、カスタマーサービス、ナレッジ共有、デジタルアシスタント、エンターテインメントの4つの実際のカテゴリのプロンプトが含まれています。 Inworld TTS 1 Max と Inworld TTS 1 はどちらも、英語、スペイン語、フランス語、韓国語、中国語を含む 12 の言語をサポートし、2 秒から 15 秒の音声からの音声クローン作成をサポートしています。Inworld TTS 1 は平均して 1 秒あたり ~153 文字の生成時間を処理し、より大きなモデルである Inworld TTS 1 Max は平均 ~69 文字を処理します。どちらのモデルも音声タグにも対応しており、ユーザーは感情や表現スタイル、そして「ささやき声」「咳」「驚いた」などの非言語的な音を追加することができます。 TTS-1とTTS-1-Maxはどちらも、SpeechLMバックボーンとしてそれぞれLLaMA-3.2-1BとLLaMA-3.1-8Bを使用するトランスフォーマーベースの自己回帰モデルです。 Speech Arenaの主要モデルをご覧になり、以下の🎧サンプルクリップをお聞きください

Inworld TTS 1 Max のサンプルプロンプト: 「腸内細菌叢には、腸脳軸を通じて消化、免疫、さらには精神的健康に影響を与える何兆もの細菌が含まれています。」

Inworld TTS 1 は生成時間の平均 ~153 文字/秒を処理し、Inworld TTS 1 Max は平均 ~69 文字を処理します。

40.41K

トップ

ランキング

お気に入り