CORREÇÃO MAIOR DA MEMÓRIA KV-CACHE Corrija o KV-cache do GLM-4.7-Flash com esta alteração de uma linha no vLLM 200K de contexto agora consome ~10GB de VRAM em vez de ~180GB NVFP4 agora está no HF* - ~20.4GB de pesos - Quase nenhuma perda em comparação com 62.4GB BF16 Este modelo SOTA agora roda em uma única RTX 5090 (32GB VRAM) > com o contexto completo de 200K > VRAM ainda disponível *HF: GadflyII/GLM-4.7-Flash-NVFP4