世界上最好、最快的语音转文本模型现在变得更好了! @AssemblyAI 刚刚发布了一个重大更新,我对其中一个新功能爱不释手。 1. 首先,他们现在可以通过姓名或角色自动识别音频中的说话者。 2. 你还可以请求以任何语言(目前支持99种语言)获取转录,因此你不必担心额外的翻译步骤。 但我最喜欢的功能无疑是 LLM Gateway,它让你可以将整个语音堆栈整合到一个平台上。 这个网关是一个 API,你可以用它来处理各种与音频相关的任务。例如,你可以用它来总结通话、提取见解或分类说话者的情感。 不再需要多步骤的流程。你只需发出一个请求,平台会将请求路由到适当的模型,包括 OpenAI、Gemini 等。 这对任何在生产应用中使用语音的人来说都是巨大的好消息! 所有这些都运行在他们已经极其快速和准确的语音转文本平台上,内置了说话者分离和多语言训练。 如果你正在构建语音应用,这将是一个游戏规则的改变。 我已经是 Assembly AI 的用户多年了。他们的模型和 API 非常出色,我很高兴他们决定与我合作撰写这篇文章。 你可以通过点击这里在他们的游乐场上试用他们的模型: