se hai una singola RTX 3090 e vuoi il miglior setup di inferenza locale al momento, ecco cosa ho scoperto dopo aver testato 5 modelli open source su 7 configurazioni GPU questo mese. GPU: 1x RTX 3090 24GB modello: Qwen 3.5 27B Dense Q4_K_M (16.7GB) contesto: 262K (massimo nativo) velocità: 35 tok/s generazione, costante da 4K a 300K+ ragionamento: catena di pensiero integrata, sopravvive alla quantizzazione Q4 configurazione: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 cosa ti offre: - 27B parametri tutti attivi per ogni token - nessun degrado di velocità man mano che il contesto si riempie - modalità di ragionamento completa su una GPU consumer - 7GB di spazio VRAM dopo il caricamento del modello testato MoE (più veloce ma meno profondità per token) e dense hermes (stessa velocità, degradato sotto carico). qwen dense ha colpito il punto dolce per una singola GPU. ulteriori confronti di architettura in arrivo. qual è il tuo setup con una singola GPU? curioso di sapere quali configurazioni stanno utilizzando le persone.