STOR KV-CACHE-MINNESFIX Fixa KV-cachen i GLM-4.7-Flash med denna enkellinjesförändring i vLLM 200K kontext kräver nu ~10GB VRAM istället för ~180GB NVFP4 är nu på HF* - ~20,4GB vikter - Nästan ingen förlust jämfört med 62,4GB BF16 Denna SOTA-modell körs nu på en enda RTX 5090 (32GB VRAM) > med hela 200K-kontexten > VRAM kvar *HF: GadflyII/GLM-4.7-Flash-NVFP4