Om du har en enda RTX 3090 och vill ha den bästa lokala inferensuppsättningen just nu, så här är vad jag kom fram till efter att ha testat 5 open source-modeller över 7 GPU-konfigurationer den här månaden. GPU: 1x RTX 3090 24GB modell: Qwen 3.5 27B Dense Q4_K_M (16,7GB) Kontext: 262K (inbyggt max) hastighet: 35 tok/s generation, platt från 4K till 300K+ Resonemang: inbyggd tankekedja, överlever Q4 kvant. Konfiguration: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Vad detta ger dig: - 27 miljarder parametrar alla aktiva, varje token - ingen hastighetsförsämring när kontexten fylls - fullständigt resonemangsläge på ett konsument-GPU - 7 GB VRAM-utrymme efter modellbelastning testade MoE (snabbare men mindre djup per token) och täta hermes (samma hastighet, försämrades under belastning). qwen dense träffade den perfekta punkten för ett enda grafikkort. Fler arkitekturjämförelser kommer snart. Hur ser din setup ut med ett enkelt grafikkort? Nyfiken på vilka konfigurationer folk kör.