Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Combinando NVIDIA DGX Spark + Apple M3 Ultra Mac Studio per un'inferenza LLM 4 volte più veloce utilizzando EXO.
DGX Spark: 128GB @ 273GB/s, 100TFLOPS (fp16)
M3 Ultra Mac Studio: 512GB @ 819GB/s, 26 TFLOPS (fp16)
DGX Spark ha ~4 volte i FLOPS dell'M3 Ultra ma 3 volte meno larghezza di banda della memoria.
Siamo riusciti a ottenere un aumento delle prestazioni di 4 volte combinando i dispositivi e sovrapponendo attentamente il calcolo e la comunicazione di rete (oltre 10GbE). Come?
L'inferenza LLM consiste in due fasi: prefill e decode.
Il prefill è vincolato dal calcolo e diventa più veloce con più FLOPS.
Il decode è vincolato dalla memoria e diventa più veloce con più larghezza di banda della memoria.
Eseguendo il prefill vincolato dal calcolo sul DGX Spark e il decode vincolato dalla memoria sull'M3 Ultra, siamo riusciti a ottenere un'accelerazione di 4 volte sul prefill rispetto all'M3 Ultra Mac Studio da solo e un'accelerazione di 3 volte sulla generazione rispetto al DGX Spark da solo.
Maggiori dettagli nel post del blog qui sotto.

Principali
Ranking
Preferiti

