OpenAIはCerebrasのウェーハスケールハードウェアにGPT-5.3-Codex-Sparkを導入し、1,000+トークン/秒、約10〜20倍を実現しました GPU推論よりも速いです。 これは段階的な改善ではありません。それは リアルタイムAIコラボレーションを初めて可能にする根本的なアーキテクチャの変革です。 --- 誰も語らないボトルネック AI推論の苦い秘密はこうです:GPUクラスターはほとんどの時間を*計算*していないのです。 NVIDIAのGPUで大規模な言語モデルを動かすと、実際の行列乗算は高速です。あなたを殺すのは: 1. GPU間通信 — 175B+パラメータモデルを8つのGPUにシャーディングすると、常にデータシャッフルが発生します 2. メモリ帯域幅 — HBMは高速ですが、それでもオフチップです 3. バッチ処理のオーバーヘッド — GPUは遅延ではなくスループットを最適化するため、リクエストのバッチ処理を待つ その結果は?最先端のH100でも、フロンティアモデルは1秒あたり50〜150トークンかかります。非同期ワークロードには問題ありません。リアルタイムのインタラクションにはひどいです。 --- セレブラス:すべてを支配する一つのウェハース Cerebrasはまったく異なるアプローチを取りました。チップを作るのではなく、ウェハーを作るのです。 WSE-3(ウェハースケールエンジン3)のスペックは驚異的です: WSE-3 NVIDIA B200 比率 ダイサイズ 46,255 mm² ~800 mm² 57x...