SỬA LỖI BỘ NHỚ KV-CACHE CHÍNH Sửa KV-cache của GLM-4.7-Flash với thay đổi một dòng trong vLLM 200K ngữ cảnh giờ chỉ tốn ~10GB VRAM thay vì ~180GB NVFP4 giờ đã có trên HF* - ~20.4GB trọng số - Gần như không mất mát so với 62.4GB BF16 Mô hình SOTA này giờ chạy trên một RTX 5090 duy nhất (32GB VRAM) > với toàn bộ 200K ngữ cảnh > VRAM vẫn còn lại *HF: GadflyII/GLM-4.7-Flash-NVFP4