世界最高かつ最速の音声テキスト変換モデルがさらに向上しました。 @AssemblyAI大規模なアップデートをドロップしたばかりですが、私は新機能の 1 つにとても気に入っています。 1. まず、音声で話している人を名前や役割で自動的に識別できるようになりました。 2. また、任意の言語 (これまでに 99 の言語がサポートされています) の成績証明書をリクエストできるため、翻訳のために追加の手順を実行することを心配する必要はありません。 しかし、私のお気に入りの機能は、音声スタック全体を 1 つのプラットフォームに統合できる LLM ゲートウェイです。 ゲートウェイは、オーディオ関連の幅広いタスクに使用できる API です。たとえば、通話の要約、洞察の抽出、話者の感情の分類などに使用できます。 複数ステップのパイプラインはもう必要ありません。1 回の呼び出しを行うだけで、プラットフォームはリクエストを OpenAI、Gemini などの適切なモデルにルーティングします。 これは、本番アプリケーションで音声を使用する人にとって非常に大きなことです。 これらはすべて、すでに非常に高速で正確な音声テキスト変換プラットフォーム上で実行され、ダイアライゼーションと多言語トレーニングが組み込まれています。 音声で構築している場合、これはゲームチェンジャーです。 私は何年も前から Assembly AI ユーザーです。彼らのモデルとAPIは素晴らしく、この投稿で私と協力することに決めてうれしいです。 ここをクリックして、遊び場でモデルを試すことができます。