jika Anda memiliki satu RTX 3090 dan menginginkan pengaturan inferensi lokal terbaik saat ini, inilah yang saya dapatkan setelah menguji 5 model open source di 7 konfigurasi GPU bulan ini. GPU: 1x RTX 3090 24GB model: Qwen 3.5 27B Dense Q4_K_M (16.7GB) konteks: 262K (maks asli) kecepatan: generasi 35 tok/s, datar dari 4K hingga 300K+ penalaran: dibangun dalam rantai pemikiran, bertahan dari Q4 quant konfigurasi: llama-server -ngl 99 -c 262144 -fa pada --cache-type-k q4_0 --cache-type-v q4_0 Apa yang diberikan ini kepada Anda: - 27B parameter semua aktif setiap token - Tidak ada degradasi kecepatan saat konteks terisi - mode penalaran penuh pada GPU konsumen - Ruang kepala VRAM 7GB setelah pemuatan model diuji MoE (lebih cepat tetapi lebih sedikit kedalaman per token) dan hermes padat (kecepatan yang sama, terdegradasi di bawah beban). qwen dense mencapai sweet spot untuk GPU tunggal. lebih banyak perbandingan arsitektur akan segera turun. apa pengaturan GPU tunggal Anda? Penasaran konfigurasi apa yang dijalankan orang.