Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pro 4x rychlejší odvozování LLM. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3,999 $ M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5 599 $ DGX Spark má 3x menší šířku pásma paměti než M3 Ultra, ale 4x více FLOPS. Spuštěním výpočetně vázaného předvyplnění na DGX Spark a dekódování vázaného na paměť na M3 Ultra a streamováním KV cache přes 10GbE jsme schopni získat to nejlepší z obou hardwaru s masivním zrychlením. Krátké vysvětlení v tomto vlákně a odkaz na celý příspěvek na blogu níže.
LLM inference se skládá z fáze předvyplnění a fáze dekódování. Předvyplnění zpracuje výzvu a vytvoří mezipaměť KV. Je vázán na výpočty - je rychlejší s více FLOPS. Dekódování čte mezipaměť KV a generuje tokeny jeden po druhém. Je vázán na paměť - s větší šířkou pásma paměti je rychlejší.
426