Menggabungkan NVIDIA DGX Spark + Apple M3 Ultra Mac Studio untuk inferensi LLM 4x lebih cepat menggunakan EXO. DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512GB @ 819GB/dtk, 26 TFLOPS (fp16) DGX Spark memiliki ~4x FLOPS M3 Ultra tetapi bandwidth memori 3x lebih sedikit. Kami bisa mendapatkan peningkatan kinerja 4x lipat dengan menggabungkan perangkat dan komputasi dan komunikasi jaringan yang tumpang tindih dengan hati-hati (lebih dari 10GbE). Bagaimana? Inferensi LLM terdiri dari dua tahap: prefill dan decode. Prefill terikat komputasi dan menjadi lebih cepat dengan lebih banyak FLOPS. Dekode terikat memori dan menjadi lebih cepat dengan bandwidth memori yang lebih banyak. Dengan menjalankan prefill terikat komputasi pada DGX Spark dan decode terikat memori pada M3 Ultra, kami dapat mencapai percepatan 4x pada prefill dibandingkan dengan M3 Ultra Mac Studio saja dan percepatan 3x pada generasi dibandingkan dengan DGX Spark saja. Detail lebih lanjut di posting blog di bawah ini.