Presentando los agentes de voz: un nuevo marco 🗣️👾 de agentes de voz de nivel empresarial Crear flujos de trabajo agentes habilitados por voz acaba de volverse más fácil, rápido y fiable. Voice-Agents es un framework Python completamente nuevo y listo para producción que ofrece integración fluida con múltiples proveedores TTS/STT, streaming en tiempo real y todo lo necesario para construir asistentes agentiales conversacionales. > Soporte multi-proveedor: OpenAI, ElevenLabs y Groq > Streaming en tiempo real para interacciones con agentes de baja latencia > Lista para producción con registro de nivel empresarial, telemetría y manejo de errores Aprende más ⬇️🧵
2 / Soporte TTS Multiproveedor Cambia entre proveedores sin esfuerzo con una API unificada. Tanto si necesitas las voces naturales de OpenAI, las opciones expresivas de ElevenLabs o la rápida inferencia de Groq, Voice-Agents lo gestiona todo con interfaces coherentes. > 10+ voces de OpenAI (aleación, nova, brillo y más) > 30+ voces de ElevenLabs con control de voz avanzado > función unificada stream_tts() funciona entre todos los proveedores Ejemplos:
3 / Arquitectura de Streaming en Tiempo Real Diseñado para sistemas basados en agentes que necesitan streaming de audio de baja latencia. Voice-Agents procesa fragmentos de audio a medida que llegan, permitiendo conversaciones naturales sin pausas incómodas ni retrasos. > StreamingTTSCallback pronuncia automáticamente oraciones completas a partir de las salidas de los agentes > Streaming basado en generadores para FastAPI y aplicaciones web > Detección inteligente de oraciones para pausas en el habla natural Github:
4 / Capacidades avanzadas de conversión de voz a texto Transcripción de alta precisión impulsada por OpenAI Whisper y ElevenLabs STT. Soporta múltiples formatos de entrada, diarización por altavoces, marcas de tiempo y detección de idiomas para un procesamiento de audio completo. > Transcripción de audio basada en archivos y en tiempo real > Diarización de altavoces y extracción de marcas de tiempo > Soporte para matrices numpy, archivos de audio y audio en streaming Ejemplos:
5 / Infraestructura lista para la producción Características de nivel empresarial integradas en cada componente. Desde la agrupación de conexiones y el soporte HTTP/2 hasta el manejo integral de errores y la seguridad de tipos, Voice-Agents está diseñado para escalar. > Cliente HTTP optimizado con pooling de conexiones y keepalive > Consejos de tipo completo y tipos literales para un mejor soporte del IDE > Utilidades de audio integradas: grabación, reproducción, conversión de formato
6 / Casos de uso: desde agentes de trading hasta asistentes de voz Los agentes de voz impulsan aplicaciones reales en distintos sectores. Crea sistemas de trading habilitados por voz, asistentes de IA conversacional, servicios de transcripción en tiempo real y aplicaciones multimodales con experiencias interactivas enriquecedoras. > Agentes de trading con voz y narración de mercado en tiempo real > Asistentes de IA conversacional con síntesis de voz natural > Sistemas de transcripción de reuniones y procesamiento de entrevistas
7 / Integración de enjambres sin interrupciones Parte del ecosistema Swarms, el marco de orquestación multiagente de nivel empresarial. Voice-Agents se integra directamente con los agentes Swarms, permitiendo sistemas multiagente habilitados por voz desde el primer momento. > Funciona perfectamente con la clase Agente de Enjambres > Streaming de llamadas de respuesta para respuestas de agentes en tiempo real > Empieza: instala pip Voice-Agents
30