Kimi-K2.5 via KTransformers+SGLang sur une configuration hybride de déchargement de mémoire GPU/CPU : 4x RTX Pro 6000 Blackwells + 640 Go de RAM La référence originale était sur 8x GPU utilisant une charge de travail de style agent de codage synthétique ciblant 2k-45k tokens d'entrée, 80-3k tokens de sortie max, et avec jusqu'à 10 requêtes concurrentes. Relancé sur la nouvelle configuration hybride Le meilleur que j'ai pu obtenir : - 23,03 tokens de sortie/s @ 10 requêtes concurrentes - TTFT moyen : ~60s - TTFT médian : ~64s Résultats de référence : - 74,39 tokens de sortie/s @ 10 requêtes concurrentes - TTFT moyen : ~9s - TTFT médian : ~3,7s
Yannick Nick
Yannick Nick26 févr. 2026
Tests initiaux pour Kimi-K2.5 via KTransformers+SGLang, sur un hybride 4x RTX Pro 6000 Blackwell + 640 Go/1,5 To de mémoire CPU déchargée. Calcul fourni par les pods Lium : - 19,97 tok/s de sortie @ 10 requêtes concurrentes - TTFT moyen : ~120s - TTFT médian : ~102s Il faut jouer avec les drapeaux KT pour optimiser davantage cette configuration, qui dépend fortement du nombre total de cœurs CPU du système et de la RAM disponible. L'interconnectivité GPU <-> PCIe <-> RAM est le goulet d'étranglement le plus évident. Experts par couche MoE sur GPU : --kt-num-gpu-experts=128 Cœurs CPU dédiés à l'inférence MoE : --kt-cpuinfer=104 Les experts CPU travaillent en chevauchement avec le travail GPU : --kt-max-deferred-experts-per-token=2 Max tokens par chunk de pré-remplissage : --chunked-prefill-size=32658 Capture de graphique CUDA désactivée : --disable-cuda-graph
Commande complète : export CUDA_VISIBLE_DEVICES=0,1,2,3 export OMP_NUM_THREADS=1 export MKL_NUM_THREADS=1 export OPENBLAS_NUM_THREADS=1 export NUMEXPR_NUM_THREADS=1 export VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 exec python -m sglang.launch_server \ --model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-method RAWINT4 \ --trust-remote-code \ --served-model-name kimi_k2 \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --tensor-parallel-size 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --disable-cuda-graph \ --host 0.0.0.0 \ --port 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-experts 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-gpu-prefill-token-threshold 1024 \ --kt-expert-placement-strategy uniform \ --mem-fraction-static 0.92 \ --enable-mixed-chunk \ --chunked-prefill-size 32658 \ --max-total-tokens 200000 \ --attention-backend flashinfer
62