Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kombinerer NVIDIA DGX Spark + Apple M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning ved hjelp av EXO.
DGX-gnist: 128 GB @ 273 GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16)
DGX Spark har ~4x FLOPS av M3 Ultra, men 3x mindre minnebåndbredde.
Vi var i stand til å få en 4x ytelsesøkning ved å kombinere enhetene og nøye overlappende beregning og nettverkskommunikasjon (over 10GbE). Hvordan?
LLM-slutning består av to trinn: forhåndsutfylling og dekoding.
Forhåndsutfylling er databundet og blir raskere med flere flopper.
Decode er minnebundet og blir raskere med mer minnebåndbredde.
Ved å kjøre databundet forhåndsutfylling på DGX Spark og minnebundet dekoding på M3 Ultra, klarte vi å oppnå 4x raskere på forhåndsutfyllingen sammenlignet med M3 Ultra Mac Studio alene og 3x raskere på generasjon sammenlignet med DGX Spark alene.
Flere detaljer i blogginnlegget nedenfor.

Topp
Rangering
Favoritter

