Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
als je een enkele RTX 3090 hebt en de beste lokale inferentie-opstelling wilt, hier is wat ik heb gevonden na het testen van 5 open source modellen op 7 GPU-configuraties deze maand.
GPU: 1x RTX 3090 24GB
model: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
context: 262K (native max)
snelheid: 35 tok/s generatie, vlak van 4K tot 300K+
redenering: ingebouwde denkketen, overleeft Q4 quant
config:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
wat dit je geeft:
- 27B parameters allemaal actief bij elke token
- geen snelheiddegradatie naarmate de context zich vult
- volledige redeneermodus op een consumenten-GPU
- 7GB VRAM ruimte na het laden van het model
getest MoE (sneller maar minder diepte per token) en dense hermes (dezelfde snelheid, gedegradeerd onder belasting). qwen dense bereikte de zoete plek voor een enkele GPU. meer architectuurvergelijkingen komen binnenkort.
wat is jouw enkele GPU-opstelling? benieuwd naar welke configuraties mensen gebruiken.
Boven
Positie
Favorieten
