BÜYÜK KV-CACHE BELLEK DÜZELTMESI GLM-4.7-Flash'ın KV-önbelleğini düzeltin vLLM'deki bu tek satırlı değişimle 200K bağlam şimdi ~10GB VRAM alıyor ~180GB yerine NVFP4 artık HF* üzerinden - ~20.4GB ağırlıklar - 62.4GB BF16 ile neredeyse sıfır kayıp Bu SOTA modeli artık tek bir RTX 5090 (32GB VRAM) > tam 200K bağlamıyla > VRAM hâlâ kaldı *HF: GadflyII/GLM-4.7-Flash-NVFP4