se você tem uma única RTX 3090 e quer a melhor configuração de inferência local agora, aqui está o que eu cheguei após testar 5 modelos de código aberto em 7 configurações de GPU este mês. GPU: 1x RTX 3090 24GB modelo: Qwen 3.5 27B Dense Q4_K_M (16.7GB) contexto: 262K (máximo nativo) velocidade: 35 tok/s de geração, constante de 4K a 300K+ razão: cadeia de pensamento embutida, sobrevive à quantização Q4 configuração: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 o que isso te dá: - 27B parâmetros todos ativos a cada token - sem degradação de velocidade à medida que o contexto se preenche - modo de raciocínio completo em uma GPU de consumo - 7GB de espaço de VRAM após o carregamento do modelo testei MoE (mais rápido, mas menos profundidade por token) e hermes denso (mesma velocidade, degradado sob carga). o qwen denso atingiu o ponto ideal para uma única GPU. mais comparações de arquitetura em breve. qual é a sua configuração de GPU única? curioso para saber quais configurações as pessoas estão usando.