阿里巴巴集团的Tongyi Lab开源了他们的Tongyi Fun语音模型系列中的Fun-Audio-Chat-8B——一种语音到语音(S2S)语音模型,使用50%更少的GPU,同时在没有显式标签的情况下理解情感语调。 与传统的ASR→LLM→TTS流程不同,S2S直接处理语音,保留语调、情感和韵律,延迟更低。 语音共情:从语调、节奏、停顿和韵律中检测情感——不仅仅是单词。相同的句子在快乐和悲伤的语气下会得到不同的回应。 更多细节👇 #TongyiFun 1/5
2/5 - 语音指令跟随: Fun-Audio-Chat 支持语音指令跟随,允许用户通过自然语音命令控制语音生成属性,如情感、说话风格、速度、音调和音量。 示例: → "像兴奋的电子竞技解说员一样说话" → "用愤怒、响亮、高音的声音说" → "开始时无聊,然后变得更兴奋" 角色扮演、声学控制、情感过渡 - 全部支持。
3/5 - 核心创新: 大多数语音模型的帧率在12.5-25Hz之间。Fun-Audio-Chat使用双分辨率语音表示来达到5Hz。 结果: → GPU使用时间减少约50% → 语音质量相同 → 更低的延迟 这是S2S模型所需的效率突破。
4/5 - 语音功能调用: 通过自然语音命令执行任务:"设置一个25分钟的专注计时器"或"从阿里巴巴校园导航到杭州动物园" 在OpenAudioBench、VoiceBench、UltraEval-Audio上约8B模型中处于SOTA: → 语音共情 → 口语问答 → 音频理解 → 功能调用 → 遵循指令
133