Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh..Qwen3.5-35B-A3B trên llama.cpp tái nạp lại trên mỗi yêu cầu, chậm hơn khoảng 4 lần so với mức bình thường. Có ai đã giải quyết vấn đề này chưa? Tôi nghĩ mọi người đã triển khai và sử dụng nó một cách vui vẻ tại địa phương? Nhưng nếu vấn đề này vẫn chưa được giải quyết, hiệu suất sẽ bị hạn chế khá nhiều.
Nguyên nhân gốc rễ: Các lớp GDN là hồi tiếp → pos_min theo dõi toàn bộ chuỗi → nhưng llama.cpp xác thực bộ nhớ đệm bằng cách sử dụng ngưỡng SWA mà mặc định là 1 cho các mô hình không phải SWA → pos_min > 1 luôn đúng → bộ nhớ đệm luôn bị loại bỏ → tái nạp lại hoàn toàn mỗi lần?

Trên thực tế, hình ảnh docker (các bản dựng ngày 13 tháng 3 năm 2026) bao gồm các bản sửa lỗi. Không cần vá thủ công.

496
Hàng đầu
Thứ hạng
Yêu thích
