Backend-ul CUDA al MLX se îmbunătățește. Este deosebit de plăcut dacă apreciezi timpii rapizi de pornire. Dar, în general, este destul de rapid. Iată Qwen3 4B în fp8 care rulează pe DGX Spark-ul meu. - Procesarea a 18.500 de tokenuri în < 4 secunde - Generează la 32,5 tok/sec cu context de 18,5k
De asemenea, este foarte simplu de pus în funcțiune:
268