Представляем Voice-Agents: совершенно новую платформу голосовых агентов корпоративного уровня 🗣️👾 Создание голосовых рабочих процессов стало проще, быстрее и надежнее. Voice-Agents — это совершенно новая готовая к производству платформа на Python, которая обеспечивает бесшовную интеграцию с несколькими поставщиками TTS/STT, потоковую передачу в реальном времени и все, что вам нужно для создания разговорных агентов. > Поддержка нескольких поставщиков: OpenAI, ElevenLabs и Groq > Потоковая передача в реальном времени для взаимодействия агентов с низкой задержкой > Готово к производству с журналированием корпоративного уровня, телеметрией и обработкой ошибок Узнайте больше ⬇️🧵
2 / Поддержка TTS от нескольких провайдеров Легко переключайтесь между провайдерами с помощью единого API. Независимо от того, нужны ли вам естественные голоса OpenAI, выразительные варианты ElevenLabs или быстрая инференция Groq, Voice-Agents справляется со всем этим с помощью единых интерфейсов. > 10+ голосов OpenAI (alloy, nova, shimmer и другие) > 30+ голосов ElevenLabs с расширенным управлением голосом > Унифицированная функция stream_tts() работает со всеми провайдерами Примеры:
3 / Архитектура потоковой передачи в реальном времени Создана для систем на основе агентов, которым требуется потоковая передача аудио с низкой задержкой. Voice-Agents обрабатывает аудиофрагменты по мере их поступления, позволяя вести естественные беседы без неловких пауз или задержек. > StreamingTTSCallback автоматически произносит полные предложения из выходных данных агентов > Генераторная потоковая передача для FastAPI и веб-приложений > Интеллектуальное определение предложений для естественных пауз в речи Github:
4 / Расширенные возможности преобразования речи в текст Высокоточная транскрипция на основе OpenAI Whisper и ElevenLabs STT. Поддерживает несколько форматов ввода, диаризацию спикеров, временные метки и определение языка для комплексной обработки аудио. > Транскрипция аудио на основе файлов и в реальном времени > Диаризация спикеров и извлечение временных меток > Поддержка массивов numpy, аудиофайлов и потокового аудио Примеры:
5 / Инфраструктура, готовая к производству Функции уровня предприятия, встроенные в каждый компонент. От пула соединений и поддержки HTTP/2 до комплексной обработки ошибок и безопасности типов, Voice-Agents разработан для масштабирования. > Оптимизированный HTTP-клиент с пулом соединений и поддержкой keepalive > Полные подсказки типов и литеральные типы для лучшей поддержки IDE > Встроенные аудиопомощники: запись, воспроизведение, конвертация форматов
6 / Сценарии использования: от торговых агентов до голосовых помощников Голосовые агенты обеспечивают реальные приложения в различных отраслях. Создавайте торговые системы с поддержкой голосового управления, разговорные AI-ассистенты, службы транскрипции в реальном времени и многомодальные приложения с богатым интерактивным опытом. > Торговые агенты с поддержкой голоса с narration рынка в реальном времени > Разговорные AI-ассистенты с естественным синтезом речи > Системы транскрипции встреч и обработки интервью
7 / Интеграция Seamless Swarms Часть экосистемы Swarms, многоагентная оркестрационная платформа корпоративного уровня. Voice-Agents интегрируется напрямую с агентами Swarms, позволяя создавать системы с поддержкой голосового управления из коробки. > Работает без проблем с классом агента Swarms > Потоковые обратные вызовы для ответов агентов в реальном времени > Начните: pip install voice-agents
26