Backend CUDA của MLXs đang ngày càng tốt hơn. Điều này đặc biệt tuyệt vời nếu bạn đánh giá cao thời gian khởi động nhanh. Nhưng nó cũng khá nhanh nói chung. Đây là Qwen3 4B ở fp8 đang chạy trên DGX Spark của tôi. - Đã xử lý 18.5k token trong < 4 giây - Tạo ra với tốc độ 32.5 tok/giây với 18.5k ngữ cảnh
Cũng rất đơn giản để bắt đầu và hoạt động:
282