Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dacă ai un singur RTX 3090 și vrei cea mai bună configurație de inferență locală acum, iată la ce am ajuns după ce am testat 5 modele open source în 7 configurații GPU luna aceasta.
GPU: 1x RTX 3090 24GB
model: Qwen 3.5 27B Dense Q4_K_M (16,7GB)
context: 262K (maxim nativ)
viteză: generare 35 tok/s, fixă de la 4K la 300K+
Raționament: lanț de gândire integrat, supraviețuiește cantității trimestrului 4
Configurație:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
Ce îți oferă acest lucru:
- 27B parametri, toate active pentru fiecare token
- fără degradare a vitezei pe măsură ce contextul se umple
- modul complet de raționament pe o placă video de consum
- 7GB spațiu de încărcare după încărcarea modelului VRAM
MoE testat (mai rapid, dar cu adâncime mai mică per token) și Hermes dens (aceeași viteză, degradat sub sarcină). Qwen Dense a găsit punctul ideal pentru o singură placă video. Vor apărea mai multe comparații de arhitectură în curând.
Care este configurația ta cu o singură placă video? Sunt curios ce configurații folosesc oamenii.
Limită superioară
Clasament
Favorite
