介绍 Voice-Agents:全新的企业级语音代理框架 🗣️👾 构建语音启用的代理工作流程变得更简单、更快速、更可靠。 Voice-Agents 是一个全新的生产就绪的 Python 框架,提供与多个 TTS/STT 提供商的无缝集成、实时流媒体以及构建对话式代理助手所需的一切。 > 多提供商支持:OpenAI、ElevenLabs 和 Groq > 低延迟代理交互的实时流媒体 > 具备企业级日志记录、遥测和错误处理的生产就绪 了解更多 ⬇️🧵
2 / 多提供商 TTS 支持 通过统一的 API 轻松切换提供商。无论您需要 OpenAI 的自然声音、ElevenLabs 的表现选项,还是 Groq 的快速推理,Voice-Agents 都能以一致的接口处理所有内容。 > 10+ OpenAI 声音(合金、诺瓦、闪光等) > 30+ ElevenLabs 声音,具有高级语音控制 > 统一的 stream_tts() 函数适用于所有提供商 示例:
3 / 实时流媒体架构 为需要低延迟音频流的基于代理的系统构建。Voice-Agents 在音频块到达时进行处理,使对话自然流畅,没有尴尬的停顿或延迟。 > StreamingTTSCallback 自动从代理输出中朗读完整句子 > 基于生成器的流媒体,适用于 FastAPI 和 Web 应用程序 > 智能句子检测,实现自然的语音停顿 Github:
4 / 高级语音转文本功能 由OpenAI Whisper和ElevenLabs STT提供的高精度转录。支持多种输入格式、说话者区分、时间戳和语言检测,以实现全面的音频处理。 > 基于文件和实时音频转录 > 说话者区分和时间戳提取 > 支持numpy数组、音频文件和流式音频 示例:
5 / 生产就绪的基础设施 每个组件都内置企业级功能。从连接池和 HTTP/2 支持到全面的错误处理和类型安全,Voice-Agents 旨在支持大规模应用。 > 优化的 HTTP 客户端,具有连接池和保持连接功能 > 完整的类型提示和字面类型,以便更好的 IDE 支持 > 内置音频工具:录音、播放、格式转换
6 / 用例:从交易代理到语音助手 语音代理在各个行业的实际应用中发挥着作用。构建语音启用的交易系统、对话式AI助手、实时转录服务和具有丰富互动体验的多模态应用。 > 具有实时市场叙述的语音启用交易代理 > 具有自然语音合成的对话式AI助手 > 会议转录和面试处理系统
7 / 无缝的Swarms集成 作为Swarms生态系统的一部分,企业级多代理编排框架。Voice-Agents直接与Swarms代理集成,开箱即用地启用语音支持的多代理系统。 > 与Swarms代理类无缝协作 > 实时代理响应的流式回调 > 开始使用:pip install voice-agents
42