IMPORTANTE CORRECCIÓN DE MEMORIA KV-CACHE Arreglar la caché KV de GLM-4.7-Flash con este cambio de línea única en vLLM Contexto de 200K ahora consume ~10GB de VRAM en lugar de ~180GB NVFP4 está ahora en HF* - ~20,4GB de pesos - Casi ninguna pérdida frente a 62,4GB BF16 Este modelo SOTA ahora funciona una única RTX 5090 (32GB de VRAM) > con el contexto completo de 200K > VRAM aún sobrante *HF: GadflyII/GLM-4.7-Flash-NVFP4