Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Om du har en enda RTX 3090 och vill ha den bästa lokala inferensuppsättningen just nu, så här är vad jag kom fram till efter att ha testat 5 open source-modeller över 7 GPU-konfigurationer den här månaden.
GPU: 1x RTX 3090 24GB
modell: Qwen 3.5 27B Dense Q4_K_M (16,7GB)
Kontext: 262K (inbyggt max)
hastighet: 35 tok/s generation, platt från 4K till 300K+
Resonemang: inbyggd tankekedja, överlever Q4 kvant.
Konfiguration:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
Vad detta ger dig:
- 27 miljarder parametrar alla aktiva, varje token
- ingen hastighetsförsämring när kontexten fylls
- fullständigt resonemangsläge på ett konsument-GPU
- 7 GB VRAM-utrymme efter modellbelastning
testade MoE (snabbare men mindre djup per token) och täta hermes (samma hastighet, försämrades under belastning). qwen dense träffade den perfekta punkten för ett enda grafikkort. Fler arkitekturjämförelser kommer snart.
Hur ser din setup ut med ett enkelt grafikkort? Nyfiken på vilka konfigurationer folk kör.
Topp
Rankning
Favoriter
