آه.. Qwen3.5-35B-A3B على llama.cpp إعادة تعبئة في كل طلب، ~4 مرات أبطأ مما ينبغي. هل حل أحد هذه المشكلة؟ هل تعتقد أن الناس استخدموه بسعادة محليا؟ لكن إذا لم يحل هذا بعد، فإن الأداء محدود جدا. السبب الجذري: طبقات GDN متكررة → pos_min تتبع → التسلسل الكامل لكنها llama.cpp تحقق من صحة الذاكرة المؤقتة باستخدام عتبة SWA التي تحدد 1 افتراضيا للنماذج غير SWA → pos_min > 1 دائما صحيحة → يتم التخلص من ذاكرة التخزين المؤقت → إعادة تعبئة كاملة في كل مرة؟
في الواقع Docker Image (إصدارات 2026-03-13) تتضمن إصلاحات. لا حاجة لتحديث يدوي.
‏‎472‏