GŁÓWNY POPRAWKA PAMIĘCI KV-CACHE Napraw KV-cache GLM-4.7-Flash za pomocą tej jednoliniowej zmiany w vLLM 200K kontekst teraz zajmuje ~10GB VRAM zamiast ~180GB NVFP4 jest teraz na HF* - ~20.4GB wag - Prawie zerowa utrata w porównaniu do 62.4GB BF16 Ten model SOTA teraz działa na jednym RTX 5090 (32GB VRAM) > z pełnym 200K kontekstem > VRAM nadal dostępny *HF: GadflyII/GLM-4.7-Flash-NVFP4