热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
将 NVIDIA DGX Spark 与 Apple M3 Ultra Mac Studio 结合,实现 4 倍更快的 LLM 推理,使用 EXO。
DGX Spark:128GB @ 273GB/s,100TFLOPS(fp16)
M3 Ultra Mac Studio:512GB @ 819GB/s,26 TFLOPS(fp16)
DGX Spark 的 FLOPS 大约是 M3 Ultra 的 4 倍,但内存带宽少 3 倍。
通过结合这两台设备并仔细重叠计算和网络通信(超过 10GbE),我们能够实现 4 倍的性能提升。怎么做到的?
LLM 推理由两个阶段组成:预填充和解码。
预填充是计算密集型的,随着 FLOPS 的增加而加快。
解码是内存密集型的,随着内存带宽的增加而加快。
通过在 DGX Spark 上运行计算密集型的预填充,在 M3 Ultra 上运行内存密集型的解码,我们能够实现与单独使用 M3 Ultra Mac Studio 相比,预填充速度提升 4 倍,与单独使用 DGX Spark 相比,生成速度提升 3 倍。
更多细节请参见下面的博客文章。

热门
排行
收藏

