Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
jeśli masz pojedynczą RTX 3090 i chcesz uzyskać najlepszą lokalną konfigurację inferencyjną w tej chwili, oto co osiągnąłem po przetestowaniu 5 modeli open source w 7 konfiguracjach GPU w tym miesiącu.
GPU: 1x RTX 3090 24GB
model: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
kontekst: 262K (maks. natywne)
prędkość: 35 tok/s generacji, stała od 4K do 300K+
rozumowanie: wbudowany łańcuch myślenia, przetrwał kwantyzację Q4
konfiguracja:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
co to ci daje:
- 27B parametrów aktywnych przy każdym tokenie
- brak degradacji prędkości w miarę wypełniania kontekstu
- pełny tryb rozumowania na konsumenckim GPU
- 7GB zapasu VRAM po załadowaniu modelu
testowane MoE (szybsze, ale mniej głębokości na token) i gęsty hermes (ta sama prędkość, degradacja pod obciążeniem). gęsty qwen osiągnął idealny punkt dla pojedynczego GPU. wkrótce więcej porównań architektur.
jaka jest twoja konfiguracja pojedynczego GPU? ciekawi mnie, jakie konfiguracje ludzie używają.
Najlepsze
Ranking
Ulubione
