Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Clustering NVIDIA DGX Spark + M3 Ultra Mac Studio pro 4x rychlejší odvozování LLM.
DGX Spark: 128GB @ 273GB/s, 100 TFLOPS (fp16), 3,999 $
M3 Ultra: 256 GB @ 819 GB/s, 26 TFLOPS (fp16), 5 599 $
DGX Spark má 3x menší šířku pásma paměti než M3 Ultra, ale 4x více FLOPS.
Spuštěním výpočetně vázaného předvyplnění na DGX Spark a dekódování vázaného na paměť na M3 Ultra a streamováním KV cache přes 10GbE jsme schopni získat to nejlepší z obou hardwaru s masivním zrychlením.
Krátké vysvětlení v tomto vlákně a odkaz na celý příspěvek na blogu níže.

LLM inference se skládá z fáze předvyplnění a fáze dekódování.
Předvyplnění zpracuje výzvu a vytvoří mezipaměť KV. Je vázán na výpočty - je rychlejší s více FLOPS.
Dekódování čte mezipaměť KV a generuje tokeny jeden po druhém. Je vázán na paměť - s větší šířkou pásma paměti je rychlejší.
426
Top
Hodnocení
Oblíbené

