Představujeme Voice-Agents: zcela nový podnikový rámec 🗣️👾 pro hlasové agenty Budování hlasových agentních workflow se právě stalo jednodušším, rychlejším a spolehlivějším. Voice-Agents je zcela nový produkčně připravený Python framework, který poskytuje bezproblémovou integraci s více poskytovateli TTS/STT, streamování v reálném čase a vše potřebné k vytvoření konverzačních agentních asistentů. > Podpora více poskytovatelů: OpenAI, ElevenLabs a Groq > Streamování v reálném čase pro interakce agentů s nízkou latencí > Připravený pro produkci s podnikovým logováním, telemetrií a zpracováním chyb na úrovni enterprise Víc se uč ⬇️🧵
2 / Podpora TTS pro více poskytovatelů Přepínejte mezi poskytovateli bez námahy díky jednotnému API. Ať už potřebujete přirozené hlasy OpenAI, expresivní možnosti ElevenLabs nebo rychlé inference od Groqu, Voice-Agents to vše zvládá s konzistentními rozhraními. > 10+ hlasů OpenAI (slitina, nova, shimmer a další) > 30+ hlasů ElevenLabs s pokročilým hlasovým ovládáním > Funkce Unified stream_tts() funguje napříč všemi poskytovateli Příklady:
3 / Architektura streamování v reálném čase Navrženo pro agentové systémy, které potřebují streamování zvuku s nízkou latencí. Hlasoví agenti zpracovávají zvukové bloky při jejich příchodu, což umožňuje přirozené rozhovory bez nepříjemných pauz nebo zpoždění. > StreamingTTSCallback automaticky vyslovuje celé věty z výstupů agenta > Streamování založené na generátoru pro FastAPI a webové aplikace > Inteligentní detekce vět pro přirozené řečové pauzy Github:
4 / Pokročilé schopnosti převodu řeči na text Vysoce přesná transkripce poháněná OpenAI Whisper a ElevenLabs STT. Podporuje více vstupních formátů, diarizaci reproduktorů, časové značky a detekci jazyka pro komplexní zpracování zvuku. > Souborová a reálnočasová audio transkripce > Denník reproduktorů a extrakce časových značek > Podpora numpy polí, audio souborů a streamovaného zvuku Příklady:
5 / Infrastruktura připravená k výrobě Enterprise funkce zabudované v každé komponentě. Od poolování spojení a podpory HTTP/2 až po komplexní zpracování chyb a bezpečnost typů je Voice-Agents navržen pro škálování. > Optimalizovaný HTTP klient s poolováním spojení a keepalive > Plné tipy a literální typy pro lepší podporu IDE > Vestavěné audio nástroje: nahrávání, přehrávání, převod formátů
6 / Případy použití: Od obchodních agentů po hlasové asistenty Voice-Agents pohání reálné aplikace napříč odvětvími. Vytvářejte hlasové obchodní systémy, konverzační AI asistenty, služby přepisu v reálném čase a multimodální aplikace s bohatými interaktivními zážitky. > Hlasem podporovaní obchodní agenti s vyprávěním trhu v reálném čase > Konverzační AI asistenti s přirozenou syntézou řeči > Systémy pro přepis a zpracování rozhovorů na schůzkách
7 / Integrace bezešvových rojů Součást ekosystému Swarms, podnikový multiagentní orchestrační rámec. Voice-Agents se integruje přímo se Swarms agenty, což umožňuje hlasově podporované multiagentní systémy hned po instalaci. > Bezproblémově spolupracuje s třídou Swarms Agent > Streamování zpětných volání pro odpovědi agentů v reálném čase > Začínáme: pip instalujte hlasové agenty
43