Các bài kiểm tra ban đầu cho Kimi-K2.5 thông qua KTransformers+SGLang, trên một hệ thống lai 4x RTX Pro 6000 Blackwell + 640GB/1.5TB bộ nhớ CPU. Tính toán được cung cấp bởi các pod Lium: - 19.97 tok/s đầu ra @ 10 yêu cầu đồng thời - Thời gian TTFT trung bình: ~120s - Thời gian TTFT trung vị: ~102s Cần điều chỉnh các cờ KT để tối ưu hóa thêm thiết lập này, điều này phụ thuộc nhiều vào số lượng lõi CPU của toàn bộ hệ thống & RAM có sẵn. Sự kết nối giữa GPU <-> PCIe <-> RAM là nút thắt rõ ràng nhất Chuyên gia theo từng lớp MoE trên GPU: --kt-num-gpu-experts=128 Các lõi CPU dành riêng cho suy diễn MoE: --kt-cpuinfer=104 Các chuyên gia CPU làm việc chồng chéo với công việc GPU: --kt-max-deferred-experts-per-token=2 Số token tối đa cho mỗi khối prefill: --chunked-prefill-size=32658 Bắt đồ thị CUDA bị vô hiệu hóa: --disable-cuda-graph
Yannick Nick
Yannick Nick25 thg 2, 2026
Chạy Kimi-K2.5 trên 8x RTX Pro 6000 Blackwells, với kế hoạch cuối cùng sẽ thử nghiệm một thiết lập suy diễn hybrid CPU/GPU thông qua KTransformers+SGLang trên 4x của cùng một loại GPU Rất tò mò để đánh giá hiệu suất tổng thể với thiết lập hybrid so với một Kimi-K2.5 đã được định lượng trên 4 GPU. Thiết lập hybrid sẽ cần gần 768GB RAM Để bắt đầu, đây là một cơ sở dữ liệu trên 8x GPU sử dụng một tác vụ mã hóa tổng hợp nhắm vào 2k-45k token đầu vào, 80-3k token đầu ra tối đa, và với tối đa 10 yêu cầu đồng thời. Cờ --mem-fraction-static của SGLang được đặt thành 0.90 Thông lượng trung bình cơ sở: ~74 token đầu ra/s @ 10 yêu cầu đồng thời
Cờ KTransformers+SGLang để tái tạo công việc: ========== export CUDA_VISIBLE_DEVICES=0,1,2,3 export OMP_NUM_THREADS=1 export MKL_NUM_THREADS=1 export OPENBLAS_NUM_THREADS=1 export NUMEXPR_NUM_THREADS=1 export VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-threadpool-count 2 \ --kt-num-gpu-experts 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-method RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-expert-placement-strategy uniform \ --trust-remote-code \ --mem-fraction-static 0.90 \ --served-model-name kimi_k2 \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --enable-mixed-chunk \ --tensor-parallel-size 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --chunked-prefill-size 32658 \ --max-total-tokens 120000 \ --attention-backend flashinfer \ --disable-cuda-graph \ --host 0.0.0.0 \ --port 8000
156