إذا كان لديك RTX 3090 واحد وتريد أفضل إعداد للاستدلال المحلي حاليا، فإليك ما وصلت إليه بعد اختبار 5 نماذج مفتوحة المصدر عبر 7 إعدادات GPU هذا الشهر. بطاقة الرسوميات: 1x RTX 3090 بسعة 24GB الطراز: Qwen 3.5 27B كثافة Q4_K_M (16.7GB) السياق: 262 ألف (الحد الأقصى الأصلي) السرعة: توليد 35 توك/ثانية، ثابتة من 4K إلى 300K+ المنطق: سلسلة فكرية مدمجة، ينجو من Q4 كموي الإعدادات: llama-server -ngl 99 -c 262144 -FA on --cache-type-k q4_0 --cache-type-v q4_0 ما الذي يمنحك هذا الوضع: - 27 مليار معلم نشط في كل رمز - عدم وجود تدهور في السرعة مع ملء السياق - وضع التفكير الكامل على بطاقة رسومات استهلاكية - 7GB سعة رأس ذاكرة VRAM بعد تحميل النموذج اختبر MoE (أسرع ولكن عمق أقل لكل رمز) وHermes كثيف (نفس السرعة، يتدهور تحت الحمل). QWEN Dense وصلت إلى النقطة المثالية لبطاقة الرسوميات الفردية. المزيد من مقارنات العمارة ستصدر قريبا. ما هو إعداد بطاقة الرسوميات الفردية لديك؟ فضولي لمعرفة الإعدادات التي يستخدمها الناس.