Apresentando Voice-Agents: Uma Nova Estrutura de Agente de Voz de Nível Empresarial 🗣️👾 Construir fluxos de trabalho com agentes habilitados para voz ficou mais fácil, rápido e confiável. Voice-Agents é uma nova estrutura Python pronta para produção que oferece integração perfeita com vários provedores de TTS/STT, streaming em tempo real e tudo o que você precisa para construir assistentes conversacionais. > Suporte a múltiplos provedores: OpenAI, ElevenLabs e Groq > Streaming em tempo real para interações de agente com baixa latência > Pronto para produção com registro de nível empresarial, telemetria e tratamento de erros Saiba mais ⬇️🧵
2 / Suporte Multi-Provider TTS Mude entre provedores sem esforço com uma API unificada. Quer precise das vozes naturais da OpenAI, das opções expressivas da ElevenLabs ou da inferência rápida da Groq, o Voice-Agents cuida de tudo com interfaces consistentes. > 10+ vozes da OpenAI (alloy, nova, shimmer, e mais) > 30+ vozes da ElevenLabs com controle avançado de voz > A função stream_tts() unificada funciona em todos os provedores Exemplos:
3 / Arquitetura de Streaming em Tempo Real Construída para sistemas baseados em agentes que precisam de streaming de áudio com baixa latência. Os Voice-Agents processam os pedaços de áudio à medida que chegam, permitindo conversas naturais sem pausas ou atrasos constrangedores. > StreamingTTSCallback fala automaticamente frases completas a partir das saídas do agente > Streaming baseado em gerador para FastAPI e aplicações web > Detecção inteligente de frases para pausas naturais na fala Github:
4 / Capacidades Avançadas de Transcrição de Fala para Texto Transcrição de alta precisão alimentada pelo OpenAI Whisper e ElevenLabs STT. Suporta múltiplos formatos de entrada, diarização de falantes, carimbos de tempo e detecção de idiomas para um processamento de áudio abrangente. > Transcrição de áudio baseada em arquivos e em tempo real > Diarização de falantes e extração de carimbos de tempo > Suporte para arrays numpy, arquivos de áudio e áudio em streaming Exemplos:
5 / Infraestrutura Pronta para Produção Recursos de nível empresarial integrados em cada componente. Desde pooling de conexões e suporte a HTTP/2 até tratamento de erros abrangente e segurança de tipos, Voice-Agents é projetado para escalar. > Cliente HTTP otimizado com pooling de conexões e keepalive > Dicas de tipo completas e tipos Literais para melhor suporte de IDE > Utilitários de áudio integrados: gravação, reprodução, conversão de formato
6 / Casos de Uso: De Agentes de Negociação a Assistentes de Voz Os Agentes de Voz impulsionam aplicações do mundo real em várias indústrias. Crie sistemas de negociação habilitados para voz, assistentes de IA conversacional, serviços de transcrição em tempo real e aplicações multimodais com experiências interativas ricas. > Agentes de negociação habilitados para voz com narração de mercado em tempo real > Assistentes de IA conversacional com síntese de fala natural > Sistemas de transcrição de reuniões e processamento de entrevistas
7 / Integração de Swarms Sem Costura Parte do ecossistema Swarms, a estrutura de orquestração multi-agente de nível empresarial. Voice-Agents integra-se diretamente com os agentes Swarms, permitindo sistemas multi-agente com suporte a voz desde o início. > Funciona perfeitamente com a classe Agente Swarms > Chamadas de streaming para respostas de agentes em tempo real > Comece: pip install voice-agents
39