KVキャッシュメモリの大幅な修正 GLM-4.7-フラッシュのKVキャッシュを修正してください このvLLMの単一行変更により 20万のコンテキストは今、約10GBのVRAMを使います ~180GBの代わりに NVFP4は現在HF*で放送されています - ~20.4GBの重み - 62.4GB BF16に対してほぼゼロの損失 このSOTAモデルは現在、 RTX 5090(32GB VRAM)が1枚 >20万ドルの全文脈を合わせて >VRAMがまだ残っています *HF:GadflyII/GLM-4.7-フラッシュ-NVFP4