NVIDIA DGX Spark + Apple M3 Ultra Mac Studio を組み合わせて、EXO を使用した LLM 推論を 4 倍高速化します。 DGX スパーク: 128GB @ 273GB/秒、100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s、26 TFLOPS (fp16) DGX Spark は M3 Ultra の ~4 倍の FLOPS を備えていますが、メモリ帯域幅は 3 倍少なくなります。 デバイスを組み合わせ、計算とネットワーク通信(10GbE以上)を慎重に重複させることで、パフォーマンスを4倍に向上させることができました。どう。 LLM推論は、事前入力とデコードの2つの段階で構成されます。 プリフィルはコンピューティングに縛られており、FLOPSが増えるほど高速になります。 デコードはメモリに縛られ、メモリ帯域幅が増えるほど高速になります。 DGX Sparkでコンピューティングバウンドのプリフィルを実行し、M3 Ultraでメモリバウンドデコードを実行することで、M3 Ultra Mac Studio単体と比較してプリフィルで4倍の高速化、DGX Spark単独と比較して生成で3倍の高速化を達成することができました。 詳細については、以下のブログ投稿をご覧ください。