トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA DGX Spark + Apple M3 Ultra Mac Studio を組み合わせて、EXO を使用した LLM 推論を 4 倍高速化します。
DGX スパーク: 128GB @ 273GB/秒、100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s、26 TFLOPS (fp16)
DGX Spark は M3 Ultra の ~4 倍の FLOPS を備えていますが、メモリ帯域幅は 3 倍少なくなります。
デバイスを組み合わせ、計算とネットワーク通信(10GbE以上)を慎重に重複させることで、パフォーマンスを4倍に向上させることができました。どう。
LLM推論は、事前入力とデコードの2つの段階で構成されます。
プリフィルはコンピューティングに縛られており、FLOPSが増えるほど高速になります。
デコードはメモリに縛られ、メモリ帯域幅が増えるほど高速になります。
DGX Sparkでコンピューティングバウンドのプリフィルを実行し、M3 Ultraでメモリバウンドデコードを実行することで、M3 Ultra Mac Studio単体と比較してプリフィルで4倍の高速化、DGX Spark単独と比較して生成で3倍の高速化を達成することができました。
詳細については、以下のブログ投稿をご覧ください。

トップ
ランキング
お気に入り

