Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio per un'inferenza LLM 4 volte più veloce utilizzando EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16) DGX Spark ha ~4 volte i FLOPS dell'M3 Ultra ma 3 volte meno larghezza di banda della memoria. Siamo riusciti a ottenere un aumento delle prestazioni di 4 volte combinando i dispositivi e sovrapponendo attentamente il calcolo e la comunicazione di rete (oltre 10GbE). Come? L'inferenza LLM consiste in due fasi: prefill e decode. Il prefill è vincolato dal calcolo e diventa più veloce con più FLOPS. Il decode è vincolato dalla memoria e diventa più veloce con più larghezza di banda della memoria. Eseguendo il prefill vincolato dal calcolo sul DGX Spark e il decode vincolato dalla memoria sull'M3 Ultra, siamo riusciti a ottenere un'accelerazione di 4 volte sul prefill rispetto all'M3 Ultra Mac Studio da solo e un'accelerazione di 3 volte sulla generazione rispetto al DGX Spark da solo. Maggiori dettagli nel post del blog qui sotto.