DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

CORRECCIÓN IMPORTANTE DE MEMORIA KV-CACHE Corrige el KV-cache de GLM-4.7-Flash con este cambio de una sola línea en vLLM 200K de contexto ahora ocupa ~10GB de VRAM en lugar de ~180GB NVFP4 ahora está en HF* - ~20.4GB de pesos - Casi cero pérdida frente a 62.4GB BF16 Este modelo SOTA ahora funciona en una sola RTX 5090 (32GB VRAM) > con el contexto completo de 200K > VRAM aún disponible *HF: GadflyII/GLM-4.7-Flash-NVFP4

Parte superior

Clasificación

Favoritos