إصلاح رئيسي لذاكرة KV-cache إصلاح ذاكرة KV المؤقتة في GLM-4.7-Flash مع هذا التغيير السطري الواحد في vLLM سياق 200 ألف الآن يأخذ ~10 جيجابايت من ذاكرة VRAM بدلا من ~180GB NVFP4 الآن على HF* - ~20.4 جيجابايت أوزان - فقدان شبه معدوم مقابل 62.4GB BF16 يعمل هذا النموذج SOTA الآن على بطاقة RTX 5090 واحدة (ذاكرة VRAM بسعة 32GB) > مع السياق الكامل البالغ 200 ألف > VRAM لا يزال متبقيا *HF: GadflyII/GLM-4.7-Flash-NVFP4