nếu bạn có một chiếc RTX 3090 duy nhất và muốn có thiết lập suy diễn cục bộ tốt nhất ngay bây giờ, đây là những gì tôi đã tìm ra sau khi thử nghiệm 5 mô hình mã nguồn mở trên 7 cấu hình GPU trong tháng này. GPU: 1x RTX 3090 24GB mô hình: Qwen 3.5 27B Dense Q4_K_M (16.7GB) ngữ cảnh: 262K (tối đa gốc) tốc độ: 35 tok/s tạo ra, ổn định từ 4K đến 300K+ lý do: chuỗi suy nghĩ tích hợp, sống sót qua Q4 quant cấu hình: llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0 điều này mang lại cho bạn: - 27B tham số đều hoạt động cho mỗi token - không giảm tốc độ khi ngữ cảnh đầy - chế độ suy diễn đầy đủ trên một GPU tiêu dùng - 7GB VRAM dư sau khi tải mô hình tested MoE (nhanh hơn nhưng ít độ sâu cho mỗi token) và dense hermes (tốc độ giống nhau, giảm hiệu suất khi tải). qwen dense đã đạt được điểm ngọt cho GPU đơn. nhiều so sánh kiến trúc sẽ được công bố sớm. cấu hình GPU đơn của bạn là gì? tò mò về những cấu hình mà mọi người đang sử dụng.