jeśli masz pojedynczą RTX 3090 i chcesz uzyskać najlepszą lokalną konfigurację inferencyjną w tej chwili, oto co osiągnąłem po przetestowaniu 5 modeli open source w 7 konfiguracjach GPU w tym miesiącu. GPU: 1x RTX 3090 24GB model: Qwen 3.5 27B Dense Q4_K_M (16.7GB) kontekst: 262K (maks. natywne) prędkość: 35 tok/s generacji, stała od 4K do 300K+ rozumowanie: wbudowany łańcuch myślenia, przetrwał kwantyzację Q4 konfiguracja: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 co to ci daje: - 27B parametrów aktywnych przy każdym tokenie - brak degradacji prędkości w miarę wypełniania kontekstu - pełny tryb rozumowania na konsumenckim GPU - 7GB zapasu VRAM po załadowaniu modelu testowane MoE (szybsze, ale mniej głębokości na token) i gęsty hermes (ta sama prędkość, degradacja pod obciążeniem). gęsty qwen osiągnął idealny punkt dla pojedynczego GPU. wkrótce więcej porównań architektur. jaka jest twoja konfiguracja pojedynczego GPU? ciekawi mnie, jakie konfiguracje ludzie używają.