Kombinerer NVIDIA DGX Spark + Apple M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning ved hjelp av EXO. DGX-gnist: 128 GB @ 273 GB/s, 100TFLOPS (fp16) M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16) DGX Spark har ~4x FLOPS av M3 Ultra, men 3x mindre minnebåndbredde. Vi var i stand til å få en 4x ytelsesøkning ved å kombinere enhetene og nøye overlappende beregning og nettverkskommunikasjon (over 10GbE). Hvordan? LLM-slutning består av to trinn: forhåndsutfylling og dekoding. Forhåndsutfylling er databundet og blir raskere med flere flopper. Decode er minnebundet og blir raskere med mer minnebåndbredde. Ved å kjøre databundet forhåndsutfylling på DGX Spark og minnebundet dekoding på M3 Ultra, klarte vi å oppnå 4x raskere på forhåndsutfyllingen sammenlignet med M3 Ultra Mac Studio alene og 3x raskere på generasjon sammenlignet med DGX Spark alene. Flere detaljer i blogginnlegget nedenfor.