Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pokud máte jednu RTX 3090 a chcete teď nejlepší nastavení lokální inference, tady je, na co jsem se rozhodl po testování 5 open source modelů v 7 konfiguracích GPU tento měsíc.
GPU: 1x RTX 3090 24GB
model: Qwen 3.5 27B Dense Q4_K_M (16,7GB)
kontext: 262K (nativní maximum)
rychlost: generace 35 tok/s, plochá od 4K do 300K+
Odůvodnění: Je v Chain of Thought zabudováno, přežívá kvantitativní Q4
Konfigurace:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
Co vám to dává:
- Parametry 27B jsou všechny aktivní na každém tokenu
- žádné zhoršení rychlosti při vyplňování kontextu
- režim plného uvažování na spotřebitelské GPU
- 7GB rezerva VRAM po načtení modelu
testoval jsem MoE (rychlejší, ale menší hloubka na token) a hustý hermes (stejné rychlosti, degradovaný pod zátěží). qwen dense trefil ideální bod pro jednu GPU. Brzy přijdou další srovnání architektury.
Jaké máš nastavení s jednou grafickou kartou? Jsem zvědavý, jaké konfigurace lidé používají.
Top
Hodnocení
Oblíbené
