Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
se hai una singola RTX 3090 e vuoi il miglior setup di inferenza locale al momento, ecco cosa ho scoperto dopo aver testato 5 modelli open source su 7 configurazioni GPU questo mese.
GPU: 1x RTX 3090 24GB
modello: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
contesto: 262K (massimo nativo)
velocità: 35 tok/s generazione, costante da 4K a 300K+
ragionamento: catena di pensiero integrata, sopravvive alla quantizzazione Q4
configurazione:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
cosa ti offre:
- 27B parametri tutti attivi per ogni token
- nessun degrado di velocità man mano che il contesto si riempie
- modalità di ragionamento completa su una GPU consumer
- 7GB di spazio VRAM dopo il caricamento del modello
testato MoE (più veloce ma meno profondità per token) e dense hermes (stessa velocità, degradato sotto carico). qwen dense ha colpito il punto dolce per una singola GPU. ulteriori confronti di architettura in arrivo.
qual è il tuo setup con una singola GPU? curioso di sapere quali configurazioni stanno utilizzando le persone.
Principali
Ranking
Preferiti
