Hvis du har en enkelt RTX 3090 og vil ha den beste lokale inferensoppsettet akkurat nå, er dette hva jeg landet på etter å ha testet 5 åpen kildekode-modeller fordelt på 7 GPU-konfigurasjoner denne måneden. GPU: 1x RTX 3090 24GB Modell: Qwen 3.5 27B Dense Q4_K_M (16,7GB) kontekst: 262K (opprinnelig maks) Hastighet: 35 tok/s generasjon, flat fra 4K til 300K+ Begrunnelse: innebygd tankekjede, overlever Q4 kvant. konfigurasjon: llama-server -ngl 99 -c 262144 -fa på --cache-type-k q4_0 --cache-type-v q4_0 Hva dette gir deg: - 27 milliarder parametere, alle aktive, hver token - ingen hastighetsforringelse når konteksten fylles - full resonnementsmodus på et forbruker-GPU - 7 GB VRAM-headroom etter modellbelastning testet MoE (raskere, men mindre dybde per token) og tette hermes (samme hastighet, forringet under belastning). qwen dense traff det perfekte punktet for ett enkelt GPU. Flere arkitektursammenligninger kommer snart. Hva er oppsettet ditt med enkelt GPU? Nysgjerrig på hvilke konfigurasjoner folk bruker.