热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
世界上最好、最快的语音转文本模型现在变得更好了!
@AssemblyAI 刚刚发布了一个重大更新,我对其中一个新功能爱不释手。
1. 首先,他们现在可以通过姓名或角色自动识别音频中的说话者。
2. 你还可以请求以任何语言(目前支持99种语言)获取转录,因此你不必担心额外的翻译步骤。
但我最喜欢的功能无疑是 LLM Gateway,它让你可以将整个语音堆栈整合到一个平台上。
这个网关是一个 API,你可以用它来处理各种与音频相关的任务。例如,你可以用它来总结通话、提取见解或分类说话者的情感。
不再需要多步骤的流程。你只需发出一个请求,平台会将请求路由到适当的模型,包括 OpenAI、Gemini 等。
这对任何在生产应用中使用语音的人来说都是巨大的好消息!
所有这些都运行在他们已经极其快速和准确的语音转文本平台上,内置了说话者分离和多语言训练。
如果你正在构建语音应用,这将是一个游戏规则的改变。
我已经是 Assembly AI 的用户多年了。他们的模型和 API 非常出色,我很高兴他们决定与我合作撰写这篇文章。
你可以通过点击这里在他们的游乐场上试用他们的模型:
热门
排行
收藏

