Dacă ai un singur RTX 3090 și vrei cea mai bună configurație de inferență locală acum, iată la ce am ajuns după ce am testat 5 modele open source în 7 configurații GPU luna aceasta. GPU: 1x RTX 3090 24GB model: Qwen 3.5 27B Dense Q4_K_M (16,7GB) context: 262K (maxim nativ) viteză: generare 35 tok/s, fixă de la 4K la 300K+ Raționament: lanț de gândire integrat, supraviețuiește cantității trimestrului 4 Configurație: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Ce îți oferă acest lucru: - 27B parametri, toate active pentru fiecare token - fără degradare a vitezei pe măsură ce contextul se umple - modul complet de raționament pe o placă video de consum - 7GB spațiu de încărcare după încărcarea modelului VRAM MoE testat (mai rapid, dar cu adâncime mai mică per token) și Hermes dens (aceeași viteză, degradat sub sarcină). Qwen Dense a găsit punctul ideal pentru o singură placă video. Vor apărea mai multe comparații de arhitectură în curând. Care este configurația ta cu o singură placă video? Sunt curios ce configurații folosesc oamenii.