Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Klynger NVIDIA DGX Spark + M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599
DGX Spark har 3 ganger mindre minnebåndbredde enn M3 Ultra, men 4 ganger flere FLOPS.
Ved å kjøre databundet forhåndsutfylling på DGX Spark, minnebundet dekoding på M3 Ultra og strømme KV-cachen over 10 GbE, er vi i stand til å få det beste ut av begge maskinvarene med enorme hastigheter.
Kort forklaring i denne tråden og lenke til hele blogginnlegget nedenfor.

LLM-slutning består av et forhåndsutfyllings- og dekodingsstadium.
Forhåndsutfylling behandler ledeteksten, og bygger en KV-buffer. Den er databundet, så den blir raskere med flere FLOPS.
Decode leser KV-cachen og genererer tokens én etter én. Den er minnebundet, så den blir raskere med mer minnebåndbredde.
Vi kan kjøre disse to trinnene på forskjellige enheter:
Forhåndsutfylling: DGX Spark (enhet med høy databehandling, 4x databehandling)
Dekode: M3 Ultra (enhet med høy minnebåndbredde, 3x minnebåndbredde)
Nå må vi imidlertid overføre KV-cachen over nettverket (10GbE). Dette introduserer en forsinkelse.
Men KV-cachen opprettes for hvert transformatorlag. Ved å sende hvert lags KV-cache etter at det er beregnet, overlapper vi kommunikasjon med beregning.
Vi streamer KV-cachen og skjuler nettverksforsinkelsen.
Vi oppnår en 4x hastighet i forhåndsutfylling og 3x i dekoding, med 0 nettverksforsinkelse.
Hele blogginnlegget og flere detaljer om EXO 1.0:
Takk @NVIDIA for tidlig tilgang til to DGX Sparks. #SparkSomethingBig
439,62K
Topp
Rangering
Favoritter

