Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Klynger NVIDIA DGX Spark + M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark har 3 ganger mindre minnebåndbredde enn M3 Ultra, men 4 ganger flere FLOPS.
Ved å kjøre databundet forhåndsutfylling på DGX Spark og minnebundet dekoding på M3 Ultra, og strømme KV-cachen over 10GbE, er vi i stand til å få det beste ut av begge maskinvarene med enorme hastigheter.
Kort forklaring i denne tråden og lenke til hele blogginnlegget nedenfor.

LLM-slutning består av en forhåndsutfyllingsfase og dekodingsfase.
Forhåndsutfylling behandler ledeteksten, og bygger en KV-buffer. Den er databundet - blir raskere med flere FLOPS.
Decode leser KV-cache og genererer tokens én etter én. Den er minnebundet - blir raskere med mer minnebåndbredde.
426
Topp
Rangering
Favoritter

