Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jos sinulla on yksittäinen RTX 3090 ja haluat parhaan paikallisen päättelyjärjestelmän juuri nyt, tässä on mihin päädyin testattuani viittä avoimen lähdekoodin mallia seitsemällä GPU-konfiguraatiolla tässä kuussa.
GPU: 1x RTX 3090 24GB
malli: Qwen 3.5 27B Tiivis Q4_K_M (16.7GB)
Konteksti: 262K (natiivi maksimi)
nopeus: 35 tok/s tuotanto, tasainen 4K:sta 300K+:aan
Päättely: rakennettu ajatusketjuun, säilyy Q4:n kvantitatiivinen
Kokoonpano:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
Mitä tämä sinulle antaa:
- 27B-parametrit, kaikki aktiivisia kaikissa tokeneissa
- ei nopeuden heikkenemistä kontekstin täyttyessä
- täysi päättelytila kuluttaja-GPU:lla
- 7GB VRAM-headroom mallin latauksen jälkeen
testasin MoE:tä (nopeampi, mutta vähemmän syvyyttä per token) ja tiheää hermestä (sama nopeus, heikkenee kuorman alla). Qwen Dense osui täydelliseen yksittäiseen näytönohjaimeen. Lisää arkkitehtuurivertailuja julkaistaan pian.
Mikä on sinun yksittäinen GPU-kokoonpanosi? Olen utelias, mitä konfiguraatioita ihmiset käyttävät.
Johtavat
Rankkaus
Suosikit
