Kimi-K2.5 prin KTransformers+SGLang pe o configurație hibridă GPU/CPU pentru descărcare memorie: 4x RTX Pro 6000 Blackwells + 640GB RAM Baza originală era pe 8x GPU-uri care foloseau o sarcină de lucru de tip agent de codare sintetică, țintind tokenuri de intrare de 2k-45k, tokenuri de ieșire maxim 80-3k și cu până la 10 cereri simultane. Rerulat pe noua configurație hibridă Cel mai bun lucru pe care l-am putut obține: - 23.03 tokens/s de ieșire @ 10 cereri concurente - TTFT medie: ~60s - TTFT median: ~64s Rezultate de bază: - 74,39 tokens/s de ieșire @ 10 cereri concurente - TTFT mediu: ~9s - TTFT median: ~3,7s
Yannick Nick
Yannick Nick26 feb. 2026
Teste inițiale pentru Kimi-K2.5 prin KTransformers+SGLang, pe un Blackwell hibrid 4x RTX Pro 6000 + 640GB/1,5TB memorie CPU offload. Calcul oferit de capsulele Lium: - 19,97 tok/s de ieșire @ 10 cereri concurente - TTFT medie: ~120s - TTFT median: ~102s Trebuie să te joci cu steagurile KT pentru a optimiza și mai mult această configurație, care depinde foarte mult de numărul total de nuclee CPU ale sistemului și de memoria RAM disponibilă. Interconectivitatea GPU <-> PCIe <-> RAM este cel mai evident blocaj Experți pe strat MoE pe GPU: --kt-num-gpu-experți=128 Nuclee CPU dedicate inferenței MoE: --kt-cpuinfer=104 Experții în CPU lucrează suprapunând lucrările GPU: --kt-max-deferred-experts-per-token=2 Jetoane maxime pe bucată preumplută: --chunked-prefill-size=32658 Capturarea graficului CUDA dezactivată: --disable-cuda-graph
Comandă completă: export CUDA_VISIBLE_DEVICES=0,1,2,3 export OMP_NUM_THREADS=1 Export MKL_NUM_THREADS=1 export OPENBLAS_NUM_THREADS=1 export NUMEXPR_NUM_THREADS=1 export VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 exec python -m sglang.launch_server \ --model-path /workspace/models/hugggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/hugggingface/models--moonshotai--kimi-K2.5/snapshots/54383e83fa33a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-method RAWINT4 \ --trust-remote-code \ --nume-model-servit kimi_k2 \ --parser-tool-call-kimi_k2 \ --analizator de raționament kimi_k2 \ --dezactivează-cache-radix \ --disable-chunked-prefix-cache-cache \ --tensor-paralel-dimensiune 4 \ --activare-p2p-check \ --disabled-shared-experts-fusion \ --disable-cuda-graph \ --gazdă 0.0.0.0 \ --port 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-experți 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-gpu-prefill-token-threshold 1024 \ --kt-expert-plasare-strategie uniformă \ --mem-fracție-static 0.92 \ --permite-mixed-hunk \ --mărimea preumplută cu bucăți 32658 \ --max-total-tokens 200000 \ --atenție-backend flashinfer
56