Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
se você tem uma única RTX 3090 e quer a melhor configuração de inferência local agora, aqui está o que eu cheguei após testar 5 modelos de código aberto em 7 configurações de GPU este mês.
GPU: 1x RTX 3090 24GB
modelo: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
contexto: 262K (máximo nativo)
velocidade: 35 tok/s de geração, constante de 4K a 300K+
razão: cadeia de pensamento embutida, sobrevive à quantização Q4
configuração:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
o que isso te dá:
- 27B parâmetros todos ativos a cada token
- sem degradação de velocidade à medida que o contexto se preenche
- modo de raciocínio completo em uma GPU de consumo
- 7GB de espaço de VRAM após o carregamento do modelo
testei MoE (mais rápido, mas menos profundidade por token) e hermes denso (mesma velocidade, degradado sob carga). o qwen denso atingiu o ponto ideal para uma única GPU. mais comparações de arquitetura em breve.
qual é a sua configuração de GPU única? curioso para saber quais configurações as pessoas estão usando.
Top
Classificação
Favoritos
