Cụm NVIDIA DGX Spark + M3 Ultra Mac Studio để tăng tốc độ suy diễn LLM gấp 4 lần. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 DGX Spark có băng thông bộ nhớ thấp hơn 3 lần so với M3 Ultra nhưng có FLOPS cao hơn 4 lần. Bằng cách chạy prefill giới hạn tính toán trên DGX Spark, giải mã giới hạn bộ nhớ trên M3 Ultra, và truyền phát bộ nhớ KV qua 10GbE, chúng tôi có thể tận dụng tốt nhất cả hai phần cứng với tốc độ tăng vọt khổng lồ. Giải thích ngắn gọn trong chủ đề này & liên kết đến bài viết blog đầy đủ bên dưới.
Suy diễn LLM bao gồm một giai đoạn prefill và decode. Giai đoạn prefill xử lý prompt, xây dựng một bộ nhớ KV cache. Nó bị giới hạn bởi tính toán nên sẽ nhanh hơn với nhiều FLOPS hơn. Giai đoạn decode đọc KV cache và tạo ra các token từng cái một. Nó bị giới hạn bởi bộ nhớ nên sẽ nhanh hơn với băng thông bộ nhớ lớn hơn.
Chúng ta có thể chạy hai giai đoạn này trên các thiết bị khác nhau: Điền trước: DGX Spark (thiết bị tính toán cao, 4x tính toán) Giải mã: M3 Ultra (thiết bị băng thông bộ nhớ cao, 3x băng thông bộ nhớ) Tuy nhiên, bây giờ chúng ta cần chuyển KV cache qua mạng (10GbE). Điều này gây ra một độ trễ.
Nhưng bộ nhớ KV được tạo ra cho mỗi lớp transformer. Bằng cách gửi bộ nhớ KV của mỗi lớp sau khi nó được tính toán, chúng tôi chồng chéo giao tiếp với tính toán. Chúng tôi phát trực tiếp bộ nhớ KV và ẩn độ trễ mạng. Chúng tôi đạt được tốc độ tăng gấp 4 lần trong việc tiền điền và gấp 3 lần trong việc giải mã, với 0 độ trễ mạng.
Bài viết đầy đủ và thêm chi tiết về EXO 1.0: Cảm ơn @NVIDIA đã cho tôi quyền truy cập sớm vào hai DGX Sparks. #SparkSomethingBig
439,68K