Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
4 kat daha hızlı LLM çıkarımı için NVIDIA DGX Spark + M3 Ultra Mac Studio'yu kümeleme.
DGX Kıvılcımı: 128 GB @ 273 GB/sn, 100 TFLOPS (fp16), 3,999 ABD doları
M3 Ultra: 256 GB @ 819 GB/sn, 26 TFLOPS (fp16), 5,599 ABD doları
DGX Spark, M3 Ultra'dan 3 kat daha az bellek bant genişliğine ancak 4 kat daha fazla FLOPS'a sahiptir.
DGX Spark'ta hesaplamaya bağlı ön doldurma, M3 Ultra'da belleğe bağlı kod çözme ve KV önbelleğini 10 GbE üzerinden yayınlayarak, büyük hızlandırmalarla her iki donanımdan da en iyi şekilde yararlanabiliyoruz.
Bu konuda kısa açıklama ve aşağıda tam blog gönderisine bağlantı.

LLM çıkarımı bir ön doldurma ve kod çözme aşamasından oluşur.
Önceden doldurma, istemi işleyerek bir KV önbelleği oluşturur. Hesaplamaya bağlıdır, bu nedenle daha fazla FLOPS ile daha hızlı hale gelir.
Kod çözme, KV önbelleğini okur ve belirteçleri tek tek oluşturur. Belleğe bağlıdır, bu nedenle daha fazla bellek bant genişliği ile daha hızlı hale gelir.
Bu iki aşamayı farklı cihazlarda çalıştırabiliriz:
Önceden doldurma: DGX Spark (yüksek işlem cihazı, 4x işlem)
Kod çözme: M3 Ultra (yüksek bellek bant genişliğine sahip cihaz, 3x bellek bant genişliği)
Ancak artık KV önbelleğini ağ üzerinden (10GbE) aktarmamız gerekiyor. Bu bir gecikmeye neden olur.
Ancak KV önbelleği her transformatör katmanı için oluşturulur. Hesaplandıktan sonra her katmanın KV önbelleğini göndererek, iletişimi hesaplama ile örtüştürüyoruz.
KV önbelleğini yayınlıyoruz ve ağ gecikmesini gizliyoruz.
Ön doldurmada 4x hızlanma ve kod çözmede 3x hızlanma elde ederiz, 0 ağ gecikmesi ile.
Tam blog yazısı ve EXO 1.0 hakkında daha fazla ayrıntı:
İki DGX Sparks'a erken erişim için @NVIDIA teşekkür ederiz. #SparkSomethingBig
439,71K
En İyiler
Sıralama
Takip Listesi

