Teste inițiale pentru Kimi-K2.5 prin KTransformers+SGLang, pe un Blackwell hibrid 4x RTX Pro 6000 + 640GB/1,5TB memorie CPU offload. Calcul oferit de capsulele Lium: - 19,97 tok/s de ieșire @ 10 cereri concurente - TTFT medie: ~120s - TTFT median: ~102s Trebuie să te joci cu steagurile KT pentru a optimiza și mai mult această configurație, care depinde foarte mult de numărul total de nuclee CPU ale sistemului și de memoria RAM disponibilă. Interconectivitatea GPU <-> PCIe <-> RAM este cel mai evident blocaj Experți pe strat MoE pe GPU: --kt-num-gpu-experți=128 Nuclee CPU dedicate inferenței MoE: --kt-cpuinfer=104 Experții în CPU lucrează suprapunând lucrările GPU: --kt-max-deferred-experts-per-token=2 Jetoane maxime pe bucată preumplută: --chunked-prefill-size=32658 Capturarea graficului CUDA dezactivată: --disable-cuda-graph
Yannick Nick
Yannick Nick25 feb. 2026
Rulează Kimi-K2.5 pe 8x RTX Pro 6000 Blackwells, cu planuri de a testa în cele din urmă o configurație hibridă de inferență CPU/GPU prin KTransformers+SGLang pe 4x din aceleași plăci video Sunt foarte curios să evaluez performanța generală cu configurația hibridă comparativ cu un Kimi-K2.5 cuantizat pe cele 4 plăci video. Configurația hibridă va necesita aproape 768GB RAM Pentru început, iată un punct de referință pentru 8x GPU-uri folosind o sarcină de lucru de tip agent de codare sintetică, țintind tokenuri de intrare de 2k-45k, tokenuri de ieșire maxim 80-3k și cu până la 10 cereri simultane. Steagul --mem-fraction-static al SGLang este setat la 0,90 Debit mediu de bază: ~74 token-uri de ieșire/s @ 10 cereri concurente
Steaguri KTransformers+SGLang pentru a reproduce lucrările: ========== export CUDA_VISIBLE_DEVICES=0,1,2,3 export OMP_NUM_THREADS=1 Export MKL_NUM_THREADS=1 export OPENBLAS_NUM_THREADS=1 export NUMEXPR_NUM_THREADS=1 export VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --<HF_PATH>model-path /modele--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/modele--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-pool-threadpool-count 2 \ --kt-num-gpu-experți 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-method RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-expert-plasare-strategie uniformă \ --trust-remote-code \ --mem-fracție-static 0.90 \ --nume-model-servit kimi_k2 \ --parser-tool-call-kimi_k2 \ --analizator de raționament kimi_k2 \ --dezactivează-cache-radix \ --disable-chunked-prefix-cache-cache \ --permite-mixed-hunk \ --tensor-paralel-dimensiune 4 \ --activare-p2p-check \ --disabled-shared-experts-fusion \ --mărimea preumplută cu bucăți 32658 \ --max-total-tokens 120000 \ --atenție-backend flashinfer \ --disable-cuda-graph \ --gazdă 0.0.0.0 \ --port 8000
142