نظام CUDA الخلفي ل MLX يتحسن. وهذا أمر رائع بشكل خاص إذا كنت تقدر أوقات بدء التشغيل السريعة. لكنها أيضا سريعة جدا بشكل عام. إليكم Qwen3 4B في FP8 يعمل على جهازي DGX Spark. - معالجة 18.5 ألف رمز في < 4 ثوان - يولد بسرعة 32.5 توك/ثانية مع سياق 18.5 ألف
وأيضا من السهل جدا تشغيله:
‏‎271‏