Eğer tek bir RTX 3090'ınız varsa ve şu anda en iyi yerel çıkarım kurulumunu istiyorsanız, bu ay 7 GPU yapılandırmasında 5 açık kaynak modeli test ettikten sonra bulduğum şey şunlar. GPU: 1x RTX 3090 24GB model: Qwen 3.5 27B Dense Q4_K_M (16.7GB) bağlam: 262K (yerel maksimum) Hız: 35 tok/s üretim, 4K'dan 300K+ ile düz Gerekçe: düşünce zincirine bağlı, 4. çeyrekte quant dönemini ayakta tutuyor yapılandırma: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 Bu size ne veriyor: - 27B parametreler, her token için aktif. - bağlam dolduruldukça hız bozulması olmaz - tüketici GPU'da tam akıl yürütme modu - Model yüklendikten sonra 7GB VRAM baş boşluğu MoE (daha hızlı ama jeton başına daha az derinlik) ve yoğun Hermes (aynı hız, yük altında bozulmuş) test edildi. qwen dense tek GPU için ideal noktayı buldu. yakında daha fazla mimari karşılaştırma yayınlanacak. Tek GPU kurulumunuz nedir? İnsanların hangi yapılandırmaları çalıştırdığını merak ediyorum.