Klynger NVIDIA DGX Spark + M3 Ultra Mac Studio for 4 ganger raskere LLM-slutning. DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark har 3 ganger mindre minnebåndbredde enn M3 Ultra, men 4 ganger flere FLOPS. Ved å kjøre databundet forhåndsutfylling på DGX Spark, minnebundet dekoding på M3 Ultra og strømme KV-cachen over 10 GbE, er vi i stand til å få det beste ut av begge maskinvarene med enorme hastigheter. Kort forklaring i denne tråden og lenke til hele blogginnlegget nedenfor.
LLM-slutning består av et forhåndsutfyllings- og dekodingsstadium. Forhåndsutfylling behandler ledeteksten, og bygger en KV-buffer. Den er databundet, så den blir raskere med flere FLOPS. Decode leser KV-cachen og genererer tokens én etter én. Den er minnebundet, så den blir raskere med mer minnebåndbredde.
Vi kan kjøre disse to trinnene på forskjellige enheter: Forhåndsutfylling: DGX Spark (enhet med høy databehandling, 4x databehandling) Dekode: M3 Ultra (enhet med høy minnebåndbredde, 3x minnebåndbredde) Nå må vi imidlertid overføre KV-cachen over nettverket (10GbE). Dette introduserer en forsinkelse.
Men KV-cachen opprettes for hvert transformatorlag. Ved å sende hvert lags KV-cache etter at det er beregnet, overlapper vi kommunikasjon med beregning. Vi streamer KV-cachen og skjuler nettverksforsinkelsen. Vi oppnår en 4x hastighet i forhåndsutfylling og 3x i dekoding, med 0 nettverksforsinkelse.
Hele blogginnlegget og flere detaljer om EXO 1.0: Takk @NVIDIA for tidlig tilgang til to DGX Sparks. #SparkSomethingBig
439,62K