人々はオープンソースがどれほど競争力のある戦略兵器となり、どのように機能しているのかを本当に理解していません。アルフレッド・マーシャルはきっと誇りに思うだろう。大聖堂とバザールを読み返すのはいつも良いことです。
Aakash Gupta
Aakash Gupta2月16日 02:24
多くの人が省略する部分ですが、NVIDIAはすべての音声AIAPIを商品化しました。 OpenAIはリアルタイムAPIに対して入力1分あたり0.06ドル、出力1分あたり0.24ドルを課しています。Gemini Liveは1秒あたり25トークンの音声料金を請求しています。音声エージェントを構築するすべてのスタートアップは、根本的にパイプラインの問題であるASR→LLM→TTS、すなわち遅延を抱えた3つのモデルをつなぎ合わせたものを運営するために、1分あたりのAPI料金で資金を失っています。 PersonaPlexはそのパイプライン全体を1つの7Bモデルに置き換えます。単一のA100で走っています。オープンウェイト、MITライセンス、商業利用許可。応答遅延:ターン取得で0.170秒、中断で0.240秒。 ダイアログの自然さではGeminiよりも高く評価されており(2.95対2.80 MOS)、ベンチマークした商用システムよりも割り込み処理が優れています。 これがNVIDIAのプレイブックのすべてを物語っています。モデルに対して料金を請求する必要はありません。GPUの購入が必要です。PersonaPlexをセルフホスティングする企業が、OpenAIに分単位で支払う代わりに、またA100やH100の売上を売るだけです。API依存を解除した音声エージェントのスタートアップは、また別のエンタープライズGPU契約です。 NVIDIAは湖を販売しているため、釣り竿をオープンソース化しました。KyutaiのMoshiアーキテクチャを基に構築され、5,000時間未満のデータで微調整されています。 音声AIのマージンはアプリケーション層からハードウェア層へ移行しています。そして、どのモデルが勝っても利益を上げているのはNVIDIAだけです。 初月で33万ダウンロード。それは寛大さを装ったインフラの奪取です。
長期的には、限界価格は限界費用に向かって傾向します。ソフトウェアでは、それは0ドルです。
23