今では、200ms未満のレイテンシで本番レベルのテキスト読み上げを実行できます。 オープンソースのTTSシステムが150msの音声出力でリアルタイムストリーミングを出荷しました。 9言語と多くの方言でゼロショットボイスクローンをサポートしています。 バイストリーミングはリアルタイム音声を可能にします テキストはストリーミングで、音声はストリーミングで送信します。 文のバッファリングもありません。 レイテンシーは音質を損なうことなく低く保たれます。 これはライブエージェント、アシスタント、インタラクティブアプリに適しています。 • テキスト入力と音声出力が同時に実施されます • エンドツーエンドの遅延は約150msに達します ・標準GPU推論スタックに対応しています ゼロショットボイスクローンは言語をまたいで機能します スピーカー専用の訓練なしに声をクローンします。 短い参考音声一つで十分です。 同じ声が言語やアクセントを超えて伝わってきます。 • 9つの主要言語をサポートしています ・クロスリンガルシンセシスの一貫性を保つ ・話者の類似性が安定している 生産の細かい制御が加わります 発音、速度、感情、音量をコントロールできます。 数字や記号は自動的に正規化されます。 サービスとして、またはコンテナ内で運用されます。 ...