Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nếu bạn có một chiếc RTX 3090 duy nhất và muốn có thiết lập suy diễn cục bộ tốt nhất ngay bây giờ, đây là những gì tôi đã tìm ra sau khi thử nghiệm 5 mô hình mã nguồn mở trên 7 cấu hình GPU trong tháng này.
GPU: 1x RTX 3090 24GB
mô hình: Qwen 3.5 27B Dense Q4_K_M (16.7GB)
ngữ cảnh: 262K (tối đa gốc)
tốc độ: 35 tok/s tạo ra, ổn định từ 4K đến 300K+
lý do: chuỗi suy nghĩ tích hợp, sống sót qua Q4 quant
cấu hình:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0
điều này mang lại cho bạn:
- 27B tham số đều hoạt động cho mỗi token
- không giảm tốc độ khi ngữ cảnh đầy
- chế độ suy diễn đầy đủ trên một GPU tiêu dùng
- 7GB VRAM dư sau khi tải mô hình
tested MoE (nhanh hơn nhưng ít độ sâu cho mỗi token) và dense hermes (tốc độ giống nhau, giảm hiệu suất khi tải). qwen dense đã đạt được điểm ngọt cho GPU đơn. nhiều so sánh kiến trúc sẽ được công bố sớm.
cấu hình GPU đơn của bạn là gì? tò mò về những cấu hình mà mọi người đang sử dụng.
Hàng đầu
Thứ hạng
Yêu thích
