Das beste und schnellste Sprach-zu-Text-Modell der Welt ist gerade noch besser geworden! @AssemblyAI hat ein großes Update veröffentlicht, und ich bin absolut begeistert von einem der neuen Funktionen. 1. Zuerst können sie jetzt automatisch die sprechende Person in einem Audio nach Name oder Rolle identifizieren. 2. Sie können auch eine Transkription in jeder Sprache anfordern (bisher werden 99 Sprachen unterstützt), sodass Sie sich keine Gedanken über zusätzliche Schritte zur Übersetzung machen müssen. Aber mein Lieblingsfeature ist der LLM Gateway, der es Ihnen ermöglicht, Ihren gesamten Voice-Stack auf einer einzigen Plattform zu konsolidieren. Der Gateway ist eine API, die Sie für eine Vielzahl von audiobezogenen Aufgaben verwenden können. Zum Beispiel könnten Sie ihn verwenden, um einen Anruf zusammenzufassen, Erkenntnisse zu extrahieren oder die Stimmung des Sprechers zu klassifizieren. Keine Notwendigkeit mehr für eine mehrstufige Pipeline. Sie können einen einzigen Anruf tätigen, und die Plattform leitet die Anfrage an das entsprechende Modell weiter, einschließlich OpenAI, Gemini und anderen. Das ist riesig für jeden, der Sprache in Produktionsanwendungen verwendet! All dies läuft auf ihrer bereits wahnsinnig schnellen und genauen Sprach-zu-Text-Plattform, mit Diarisierung und mehrsprachigem Training integriert. Wenn Sie mit Sprache arbeiten, ist das ein echter Game-Changer. Ich bin seit Jahren ein Benutzer von Assembly AI. Ihre Modelle und APIs sind erstaunlich, und ich bin froh, dass sie sich entschieden haben, mit mir an diesem Beitrag zusammenzuarbeiten. Sie können ihr Modell auf ihrem Playground ausprobieren, indem Sie hier klicken: