一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

阿里巴巴集团的Tongyi Lab开源了他们的Tongyi Fun语音模型系列中的Fun-Audio-Chat-8B——一种语音到语音（S2S）语音模型，使用50%更少的GPU，同时在没有显式标签的情况下理解情感语调。与传统的ASR→LLM→TTS流程不同，S2S直接处理语音，保留语调、情感和韵律，延迟更低。语音共情：从语调、节奏、停顿和韵律中检测情感——不仅仅是单词。相同的句子在快乐和悲伤的语气下会得到不同的回应。更多细节👇 #TongyiFun 1/5

2/5 - 语音指令跟随： Fun-Audio-Chat 支持语音指令跟随，允许用户通过自然语音命令控制语音生成属性，如情感、说话风格、速度、音调和音量。示例： → "像兴奋的电子竞技解说员一样说话" → "用愤怒、响亮、高音的声音说" → "开始时无聊，然后变得更兴奋" 角色扮演、声学控制、情感过渡 - 全部支持。

3/5 - 核心创新：大多数语音模型的帧率在12.5-25Hz之间。Fun-Audio-Chat使用双分辨率语音表示来达到5Hz。结果： → GPU使用时间减少约50% → 语音质量相同 → 更低的延迟这是S2S模型所需的效率突破。

4/5 - 语音功能调用：通过自然语音命令执行任务："设置一个25分钟的专注计时器"或"从阿里巴巴校园导航到杭州动物园" 在OpenAudioBench、VoiceBench、UltraEval-Audio上约8B模型中处于SOTA： → 语音共情 → 口语问答 → 音频理解 → 功能调用 → 遵循指令

133