熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
結合 NVIDIA DGX Spark + Apple M3 Ultra Mac Studio,以 EXO 實現 4 倍更快的 LLM 推理。
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
DGX Spark 的 FLOPS 約為 M3 Ultra 的 4 倍,但內存帶寬少了 3 倍。
通過結合這些設備並仔細重疊計算和網絡通信(超過 10GbE),我們能夠實現 4 倍的性能提升。怎麼做到的?
LLM 推理由兩個階段組成:預填充和解碼。
預填充是計算密集型的,隨著 FLOPS 的增加而變得更快。
解碼是內存密集型的,隨著內存帶寬的增加而變得更快。
通過在 DGX Spark 上運行計算密集型的預填充,並在 M3 Ultra 上運行內存密集型的解碼,我們能夠實現預填充相比於單獨的 M3 Ultra Mac Studio 快 4 倍,生成相比於單獨的 DGX Spark 快 3 倍。
更多詳情請參見下面的博客文章。

熱門
排行
收藏

