アリババグループのTongyi Labは、Tongyi FunボイスモデルファミリーからFun-Audio-Chat-8Bをオープンソース化しました。これは、GPU使用量を50%削減し、感情的なトーンを明確なラベルなしで理解できる音声合成(S2S)ボイスモデルです。 従来のASR→LLM→TTSパイプラインとは異なり、S2Sは音声を直接処理し、音色、感情、韻律を低遅延で保持します。 ボイス・エンパシー:言葉だけでなく、トーン、テンポ、間、韻律から感情を感知します。同じ文で「幸せ」と「悲しい」と言われると、反応が違う。 詳細👇 #TongyiFun 1/5
2/5 - 以下のスピーチ指導: Fun-Audio-ChatはSpeech Instruction-Followingをサポートしており、ユーザーが感情、話し方、速度、ピッチ、音量などの音声生成属性を自然な音声コマンドでコントロールできます。 例: →「興奮したeスポーツ解説者のように話せ」 →「怒りっぽくて大きな声で言って」 →「最初は退屈で、それからもっとワクワクする」 ロールプレイ、音響コントロール、感情の移行――すべてサポートされています。
3/5 - コアイノベーション: ほとんどのボイスモデルは12.5〜25Hzのフレームレートで動作します。Fun-Audio-Chatはデュアル解像度音声表現を使って5Hzを実現しています。 結果: → GPU時間が50%減る → 同じ話し方の質 → レイテンシの低さ これが必要な効率化の突破口であるS2Sモデルです。
4/5 - 音声機能の呼び出し: 自然な音声コマンドでタスクを実行します:「25分のフォーカスタイマーをセット」や「アリババキャンパスから杭州動物園へナビゲート」 OpenAudioBench、VoiceBench、UltraEval-Audioの~8BモデルのSOTAは以下のカテゴリで利用可能です: → 声の共感 → スピークンQA → 音声理解 → 関数呼び出し → 指示に従う
116