Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eğer tek bir RTX 3090'ınız varsa ve şu anda en iyi yerel çıkarım kurulumunu istiyorsanız, bu ay 7 GPU yapılandırmasında 5 açık kaynak modeli test ettikten sonra bulduğum şey şunlar.
GPU: 1x RTX 3090 24GB
model: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
bağlam: 262K (yerel maksimum)
Hız: 35 tok/s üretim, 4K'dan 300K+ ile düz
Gerekçe: düşünce zincirine bağlı, 4. çeyrekte quant dönemini ayakta tutuyor
yapılandırma:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
Bu size ne veriyor:
- 27B parametreler, her token için aktif.
- bağlam dolduruldukça hız bozulması olmaz
- tüketici GPU'da tam akıl yürütme modu
- Model yüklendikten sonra 7GB VRAM baş boşluğu
MoE (daha hızlı ama jeton başına daha az derinlik) ve yoğun Hermes (aynı hız, yük altında bozulmuş) test edildi. qwen dense tek GPU için ideal noktayı buldu. yakında daha fazla mimari karşılaştırma yayınlanacak.
Tek GPU kurulumunuz nedir? İnsanların hangi yapılandırmaları çalıştırdığını merak ediyorum.
En İyiler
Sıralama
Takip Listesi
