Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Combinación de NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para una inferencia de LLM 4 veces más rápida con EXO.
DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16)
M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16)
DGX Spark tiene ~4x FLOPS de M3 Ultra pero 3x menos ancho de banda de memoria.
Pudimos obtener un aumento de rendimiento de 4 veces al combinar los dispositivos y superponer cuidadosamente la computación y la comunicación de red (más de 10 GbE). ¿Cómo?
La inferencia de LLM consta de dos etapas: prellenado y decodificación.
El relleno previo está vinculado al cálculo y se vuelve más rápido con más FLOPS.
La decodificación está vinculada a la memoria y se vuelve más rápida con más ancho de banda de memoria.
Al ejecutar el prellenado vinculado a la computación en el DGX Spark y la decodificación vinculada a la memoria en el M3 Ultra, pudimos lograr una aceleración de 4 veces en el prellenado en comparación con el M3 Ultra Mac Studio solo y una aceleración de 3 veces en la generación en comparación con el DGX Spark solo.
Más detalles en la publicación del blog a continuación.

Populares
Ranking
Favoritas

