Backend CUDA MLX semakin baik. Ini sangat menyenangkan jika Anda menghargai waktu startup yang cepat. Tapi secara umum juga cukup cepat. Inilah Qwen3 4B di fp8 yang berjalan di DGX Spark saya. - Memproses 18,5 ribu token dalam < 4 detik - Menghasilkan pada 32,5 tok/detik dengan konteks 18,5 ribu
Juga sangat mudah untuk bangun dan berjalan:
280