热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
阿里巴巴集团的Tongyi Lab开源了他们的Tongyi Fun语音模型系列中的Fun-Audio-Chat-8B——一种语音到语音(S2S)语音模型,使用50%更少的GPU,同时在没有显式标签的情况下理解情感语调。
与传统的ASR→LLM→TTS流程不同,S2S直接处理语音,保留语调、情感和韵律,延迟更低。
语音共情:从语调、节奏、停顿和韵律中检测情感——不仅仅是单词。相同的句子在快乐和悲伤的语气下会得到不同的回应。
更多细节👇
#TongyiFun
1/5
2/5 - 语音指令跟随:
Fun-Audio-Chat 支持语音指令跟随,允许用户通过自然语音命令控制语音生成属性,如情感、说话风格、速度、音调和音量。
示例:
→ "像兴奋的电子竞技解说员一样说话"
→ "用愤怒、响亮、高音的声音说"
→ "开始时无聊,然后变得更兴奋"
角色扮演、声学控制、情感过渡 - 全部支持。
3/5 - 核心创新:
大多数语音模型的帧率在12.5-25Hz之间。Fun-Audio-Chat使用双分辨率语音表示来达到5Hz。
结果:
→ GPU使用时间减少约50%
→ 语音质量相同
→ 更低的延迟
这是S2S模型所需的效率突破。
4/5 - 语音功能调用:
通过自然语音命令执行任务:"设置一个25分钟的专注计时器"或"从阿里巴巴校园导航到杭州动物园"
在OpenAudioBench、VoiceBench、UltraEval-Audio上约8B模型中处于SOTA:
→ 语音共情
→ 口语问答
→ 音频理解
→ 功能调用
→ 遵循指令
133
热门
排行
收藏
