Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

uh..Qwen3.5-35B-A3B trên llama.cpp tái nạp lại trên mỗi yêu cầu, chậm hơn khoảng 4 lần so với mức bình thường. Có ai đã giải quyết vấn đề này chưa? Tôi nghĩ mọi người đã triển khai và sử dụng nó một cách vui vẻ tại địa phương? Nhưng nếu vấn đề này vẫn chưa được giải quyết, hiệu suất sẽ bị hạn chế khá nhiều. Nguyên nhân gốc rễ: Các lớp GDN là hồi tiếp → pos_min theo dõi toàn bộ chuỗi → nhưng llama.cpp xác thực bộ nhớ đệm bằng cách sử dụng ngưỡng SWA mà mặc định là 1 cho các mô hình không phải SWA → pos_min > 1 luôn đúng → bộ nhớ đệm luôn bị loại bỏ → tái nạp lại hoàn toàn mỗi lần?

Trên thực tế, hình ảnh docker (các bản dựng ngày 13 tháng 3 năm 2026) bao gồm các bản sửa lỗi. Không cần vá thủ công.

496

Hàng đầu

Thứ hạng

Yêu thích