DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Dacă ai un singur RTX 3090 și vrei cea mai bună configurație de inferență locală acum, iată la ce am ajuns după ce am testat 5 modele open source în 7 configurații GPU luna aceasta. GPU: 1x RTX 3090 24GB model: Qwen 3.5 27B Dense Q4_K_M (16,7GB) context: 262K (maxim nativ) viteză: generare 35 tok/s, fixă de la 4K la 300K+ Raționament: lanț de gândire integrat, supraviețuiește cantității trimestrului 4 Configurație: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Ce îți oferă acest lucru: - 27B parametri, toate active pentru fiecare token - fără degradare a vitezei pe măsură ce contextul se umple - modul complet de raționament pe o placă video de consum - 7GB spațiu de încărcare după încărcarea modelului VRAM MoE testat (mai rapid, dar cu adâncime mai mică per token) și Hermes dens (aceeași viteză, degradat sub sarcină). Qwen Dense a găsit punctul ideal pentru o singură placă video. Vor apărea mai multe comparații de arhitectură în curând. Care este configurația ta cu o singură placă video? Sunt curios ce configurații folosesc oamenii.

Limită superioară

Clasament

Favorite