Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Backend CUDA của MLXs đang ngày càng tốt hơn. Điều này đặc biệt tuyệt vời nếu bạn đánh giá cao thời gian khởi động nhanh. Nhưng nó cũng khá nhanh nói chung. Đây là Qwen3 4B ở fp8 đang chạy trên DGX Spark của tôi. - Đã xử lý 18.5k token trong < 4 giây - Tạo ra với tốc độ 32.5 tok/giây với 18.5k ngữ cảnh

Cũng rất đơn giản để bắt đầu và hoạt động:

282

Hàng đầu

Thứ hạng

Yêu thích