DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio per un'inferenza LLM 4 volte più veloce. DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), $3,999 M3 Ultra: 256GB @ 819GB/s, 26 TFLOPS (fp16), $5,599 Il DGX Spark ha 3 volte meno larghezza di banda della memoria rispetto all'M3 Ultra ma 4 volte più FLOPS. Eseguendo il prefill vincolato dalla computazione sul DGX Spark, il decode vincolato dalla memoria sull'M3 Ultra e trasmettendo la cache KV su 10GbE, siamo in grado di ottenere il meglio di entrambi gli hardware con enormi aumenti di velocità. Breve spiegazione in questo thread e link al post completo del blog qui sotto.

L'inferenza LLM consiste in una fase di prefill e una fase di decodifica. Il prefill elabora il prompt, costruendo una cache KV. È vincolato dal calcolo, quindi diventa più veloce con più FLOPS. La decodifica legge la cache KV e genera i token uno alla volta. È vincolata dalla memoria, quindi diventa più veloce con una maggiore larghezza di banda della memoria.

Possiamo eseguire queste due fasi su dispositivi diversi: Prefill: DGX Spark (dispositivo ad alta potenza di calcolo, 4x calcolo) Decode: M3 Ultra (dispositivo ad alta larghezza di banda di memoria, 3x larghezza di banda di memoria) Tuttavia, ora dobbiamo trasferire la cache KV attraverso la rete (10GbE). Questo introduce un ritardo.

Ma la cache KV viene creata per ogni strato del trasformatore. Inviando la cache KV di ciascun strato dopo che è stata calcolata, sovrapponiamo la comunicazione con il calcolo. Trasmettiamo la cache KV e nascondiamo il ritardo di rete. Otteniamo un aumento della velocità di 4 volte nel prefill e di 3 volte nella decodifica, con 0 ritardo di rete.

Post completo del blog e ulteriori dettagli su EXO 1.0: Grazie @NVIDIA per l'accesso anticipato a due DGX Sparks. #SparkSomethingBig

439,62K

Principali

Ranking

Preferiti