Jos sinulla on yksittäinen RTX 3090 ja haluat parhaan paikallisen päättelyjärjestelmän juuri nyt, tässä on mihin päädyin testattuani viittä avoimen lähdekoodin mallia seitsemällä GPU-konfiguraatiolla tässä kuussa. GPU: 1x RTX 3090 24GB malli: Qwen 3.5 27B Tiivis Q4_K_M (16.7GB) Konteksti: 262K (natiivi maksimi) nopeus: 35 tok/s tuotanto, tasainen 4K:sta 300K+:aan Päättely: rakennettu ajatusketjuun, säilyy Q4:n kvantitatiivinen Kokoonpano: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Mitä tämä sinulle antaa: - 27B-parametrit, kaikki aktiivisia kaikissa tokeneissa - ei nopeuden heikkenemistä kontekstin täyttyessä - täysi päättelytila kuluttaja-GPU:lla - 7GB VRAM-headroom mallin latauksen jälkeen testasin MoE:tä (nopeampi, mutta vähemmän syvyyttä per token) ja tiheää hermestä (sama nopeus, heikkenee kuorman alla). Qwen Dense osui täydelliseen yksittäiseen näytönohjaimeen. Lisää arkkitehtuurivertailuja julkaistaan pian. Mikä on sinun yksittäinen GPU-kokoonpanosi? Olen utelias, mitä konfiguraatioita ihmiset käyttävät.