Combinación de NVIDIA DGX Spark + Apple M3 Ultra Mac Studio para una inferencia de LLM 4 veces más rápida con EXO. DGX Spark: 128 GB @ 273 GB/s, 100 TFLOPS (fp16) M3 Ultra Mac Studio: 512 GB @ 819 GB/s, 26 TFLOPS (fp16) DGX Spark tiene ~4x FLOPS de M3 Ultra pero 3x menos ancho de banda de memoria. Pudimos obtener un aumento de rendimiento de 4 veces al combinar los dispositivos y superponer cuidadosamente la computación y la comunicación de red (más de 10 GbE). ¿Cómo? La inferencia de LLM consta de dos etapas: prellenado y decodificación. El relleno previo está vinculado al cálculo y se vuelve más rápido con más FLOPS. La decodificación está vinculada a la memoria y se vuelve más rápida con más ancho de banda de memoria. Al ejecutar el prellenado vinculado a la computación en el DGX Spark y la decodificación vinculada a la memoria en el M3 Ultra, pudimos lograr una aceleración de 4 veces en el prellenado en comparación con el M3 Ultra Mac Studio solo y una aceleración de 3 veces en la generación en comparación con el DGX Spark solo. Más detalles en la publicación del blog a continuación.