ОСНОВНЕ ВИПРАВЛЕННЯ ПАМ'ЯТІ KV-CACHE Виправте KV-кеш GLM-4.7-Flash з цією однорядковою зміною у vLLM Контекст 200K тепер займає ~10GB VRAM замість ~180GB NVFP4 тепер на HF* - ~20,4 ГБ ваги - Майже нульові втрати проти 62,4GB BF16 Ця модель SOTA тепер працює на одна RTX 5090 (32GB VRAM) > з повним контекстом 200K > VRAM, що залишився *HF: GadflyII/GLM-4.7-Flash-NVFP4