CORREZIONE MAGGIORE DELLA MEMORIA KV-CACHE Correggi il KV-cache di GLM-4.7-Flash con questa modifica in una sola riga in vLLM 200K contesto ora richiede ~10GB di VRAM invece di ~180GB NVFP4 è ora su HF* - ~20.4GB di pesi - Quasi zero perdita rispetto a 62.4GB BF16 Questo modello SOTA ora funziona su una singola RTX 5090 (32GB VRAM) > con il pieno contesto di 200K > VRAM ancora disponibile *HF: GadflyII/GLM-4.7-Flash-NVFP4