トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAIはCerebrasのウェーハスケールハードウェアにGPT-5.3-Codex-Sparkを導入し、1,000+トークン/秒、約10〜20倍を実現しました
GPU推論よりも速いです。
これは段階的な改善ではありません。それは
リアルタイムAIコラボレーションを初めて可能にする根本的なアーキテクチャの変革です。
---
誰も語らないボトルネック
AI推論の苦い秘密はこうです:GPUクラスターはほとんどの時間を*計算*していないのです。
NVIDIAのGPUで大規模な言語モデルを動かすと、実際の行列乗算は高速です。あなたを殺すのは:
1. GPU間通信 — 175B+パラメータモデルを8つのGPUにシャーディングすると、常にデータシャッフルが発生します
2. メモリ帯域幅 — HBMは高速ですが、それでもオフチップです
3. バッチ処理のオーバーヘッド — GPUは遅延ではなくスループットを最適化するため、リクエストのバッチ処理を待つ
その結果は?最先端のH100でも、フロンティアモデルは1秒あたり50〜150トークンかかります。非同期ワークロードには問題ありません。リアルタイムのインタラクションにはひどいです。
---
セレブラス:すべてを支配する一つのウェハース
Cerebrasはまったく異なるアプローチを取りました。チップを作るのではなく、ウェハーを作るのです。
WSE-3(ウェハースケールエンジン3)のスペックは驚異的です:
WSE-3 NVIDIA B200 比率
ダイサイズ 46,255 mm² ~800 mm² 57x...


トップ
ランキング
お気に入り
