WICHTIGE KV-CACHE SPEICHERBEHEBUNG Behebe den KV-Cache von GLM-4.7-Flash mit dieser einzeiligen Änderung in vLLM 200K Kontext benötigt jetzt ~10GB VRAM anstelle von ~180GB NVFP4 ist jetzt auf HF* - ~20,4GB Gewichte - Fast kein Verlust im Vergleich zu 62,4GB BF16 Dieses SOTA-Modell läuft jetzt auf einer einzelnen RTX 5090 (32GB VRAM) > mit dem vollen 200K Kontext > VRAM bleibt noch übrig *HF: GadflyII/GLM-4.7-Flash-NVFP4