si tienes una sola RTX 3090 y quieres la mejor configuración de inferencia local en este momento, aquí está en lo que he aterrizado después de probar 5 modelos de código abierto en 7 configuraciones de GPU este mes. GPU: 1x RTX 3090 24GB modelo: Qwen 3.5 27B Dense Q4_K_M (16.7GB) contexto: 262K (máximo nativo) velocidad: 35 tok/s de generación, plano de 4K a 300K+ razonamiento: cadena de pensamiento incorporada, sobrevive a la cuantificación Q4 configuración: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 lo que esto te da: - 27B parámetros todos activos cada token - sin degradación de velocidad a medida que se llena el contexto - modo de razonamiento completo en una GPU de consumo - 7GB de margen de VRAM después de cargar el modelo testé MoE (más rápido pero menos profundidad por token) y hermes denso (misma velocidad, degradado bajo carga). qwen denso alcanzó el punto óptimo para una sola GPU. más comparaciones de arquitectura llegarán pronto. ¿Cuál es tu configuración de GPU única? tengo curiosidad por saber qué configuraciones está ejecutando la gente.