Pokud máte jednu RTX 3090 a chcete teď nejlepší nastavení lokální inference, tady je, na co jsem se rozhodl po testování 5 open source modelů v 7 konfiguracích GPU tento měsíc. GPU: 1x RTX 3090 24GB model: Qwen 3.5 27B Dense Q4_K_M (16,7GB) kontext: 262K (nativní maximum) rychlost: generace 35 tok/s, plochá od 4K do 300K+ Odůvodnění: Je v Chain of Thought zabudováno, přežívá kvantitativní Q4 Konfigurace: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Co vám to dává: - Parametry 27B jsou všechny aktivní na každém tokenu - žádné zhoršení rychlosti při vyplňování kontextu - režim plného uvažování na spotřebitelské GPU - 7GB rezerva VRAM po načtení modelu testoval jsem MoE (rychlejší, ale menší hloubka na token) a hustý hermes (stejné rychlosti, degradovaný pod zátěží). qwen dense trefil ideální bod pro jednu GPU. Brzy přijdou další srovnání architektury. Jaké máš nastavení s jednou grafickou kartou? Jsem zvědavý, jaké konfigurace lidé používají.