トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
アリババグループのTongyi Labは、Tongyi FunボイスモデルファミリーからFun-Audio-Chat-8Bをオープンソース化しました。これは、GPU使用量を50%削減し、感情的なトーンを明確なラベルなしで理解できる音声合成(S2S)ボイスモデルです。
従来のASR→LLM→TTSパイプラインとは異なり、S2Sは音声を直接処理し、音色、感情、韻律を低遅延で保持します。
ボイス・エンパシー:言葉だけでなく、トーン、テンポ、間、韻律から感情を感知します。同じ文で「幸せ」と「悲しい」と言われると、反応が違う。
詳細👇
#TongyiFun
1/5
2/5 - 以下のスピーチ指導:
Fun-Audio-ChatはSpeech Instruction-Followingをサポートしており、ユーザーが感情、話し方、速度、ピッチ、音量などの音声生成属性を自然な音声コマンドでコントロールできます。
例:
→「興奮したeスポーツ解説者のように話せ」
→「怒りっぽくて大きな声で言って」
→「最初は退屈で、それからもっとワクワクする」
ロールプレイ、音響コントロール、感情の移行――すべてサポートされています。
3/5 - コアイノベーション:
ほとんどのボイスモデルは12.5〜25Hzのフレームレートで動作します。Fun-Audio-Chatはデュアル解像度音声表現を使って5Hzを実現しています。
結果:
→ GPU時間が50%減る
→ 同じ話し方の質
→ レイテンシの低さ
これが必要な効率化の突破口であるS2Sモデルです。
4/5 - 音声機能の呼び出し:
自然な音声コマンドでタスクを実行します:「25分のフォーカスタイマーをセット」や「アリババキャンパスから杭州動物園へナビゲート」
OpenAudioBench、VoiceBench、UltraEval-Audioの~8BモデルのSOTAは以下のカテゴリで利用可能です:
→ 声の共感
→ スピークンQA
→ 音声理解
→ 関数呼び出し
→ 指示に従う
116
トップ
ランキング
お気に入り
