DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

als je een enkele RTX 3090 hebt en de beste lokale inferentie-opstelling wilt, hier is wat ik heb gevonden na het testen van 5 open source modellen op 7 GPU-configuraties deze maand. GPU: 1x RTX 3090 24GB model: Qwen 3.5 27B Dense Q4_K_M (16.7GB) context: 262K (native max) snelheid: 35 tok/s generatie, vlak van 4K tot 300K+ redenering: ingebouwde denkketen, overleeft Q4 quant config: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 wat dit je geeft: - 27B parameters allemaal actief bij elke token - geen snelheiddegradatie naarmate de context zich vult - volledige redeneermodus op een consumenten-GPU - 7GB VRAM ruimte na het laden van het model getest MoE (sneller maar minder diepte per token) en dense hermes (dezelfde snelheid, gedegradeerd onder belasting). qwen dense bereikte de zoete plek voor een enkele GPU. meer architectuurvergelijkingen komen binnenkort. wat is jouw enkele GPU-opstelling? benieuwd naar welke configuraties mensen gebruiken.

Boven

Positie

Favorieten