Kombinace NVIDIA DGX Spark + Apple M3 Ultra Mac Studio pro 4x rychlejší inferenci LLM pomocí EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16) DGX Spark má ~4x FLOPS oproti M3 Ultra, ale 3x menší šířku pásma paměti. Kombinací zařízení a pečlivým překrýváním výpočetní a síťové komunikace (přes 10GbE) se nám podařilo dosáhnout 4x zvýšení výkonu. Jak? LLM inference se skládá ze dvou fází: předvyplnění a dekódování. Předvyplnění je vázáno na výpočty a s větším počtem FLOPS se zrychluje. Dekódování je vázáno na paměť a s větší šířkou pásma paměti se zrychluje. Spuštěním výpočetně vázaného předvyplnění na DGX Spark a dekódování vázaného na paměť na M3 Ultra jsme byli schopni dosáhnout 4x zrychlení prefillu ve srovnání se samotným M3 Ultra Mac Studio a 3x zrychlení při generování ve srovnání se samotným DGX Spark. Více podrobností v příspěvku na blogu níže.