热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
集群 NVIDIA DGX Spark + M3 Ultra Mac Studio,实现 4 倍更快的 LLM 推理。
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark 的内存带宽是 M3 Ultra 的 1/3,但 FLOPS 是其 4 倍。
通过在 DGX Spark 上运行计算密集型的预填充,在 M3 Ultra 上进行内存密集型的解码,并通过 10GbE 流式传输 KV 缓存,我们能够充分利用这两种硬件,实现巨大的速度提升。
此线程中的简短说明及完整博客文章链接如下。

LLM 推理由预填充和解码阶段组成。
预填充处理提示,构建 KV 缓存。它是计算密集型的,因此随着 FLOPS 的增加而变得更快。
解码读取 KV 缓存并逐个生成令牌。它是内存密集型的,因此随着内存带宽的增加而变得更快。
我们可以在不同的设备上运行这两个阶段:
预填充:DGX Spark(高计算设备,4倍计算)
解码:M3 Ultra(高内存带宽设备,3倍内存带宽)
然而,现在我们需要通过网络(10GbE)传输KV缓存。这会引入延迟。
但是 KV 缓存是为每个变换器层创建的。通过在计算后发送每层的 KV 缓存,我们将通信与计算重叠。
我们流式传输 KV 缓存并隐藏网络延迟。
我们在预填充中实现了 4 倍的加速,在解码中实现了 3 倍的加速,且网络延迟为 0。
关于 EXO 1.0 的完整博客文章和更多细节:
感谢 @NVIDIA 提供早期访问两个 DGX Sparks。 #SparkSomethingBig
439.62K
热门
排行
收藏

