Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 via KTransformers+SGLang sur une configuration hybride de déchargement de mémoire GPU/CPU : 4x RTX Pro 6000 Blackwells + 640 Go de RAM
La référence originale était sur 8x GPU utilisant une charge de travail de style agent de codage synthétique ciblant 2k-45k tokens d'entrée, 80-3k tokens de sortie max, et avec jusqu'à 10 requêtes concurrentes. Relancé sur la nouvelle configuration hybride
Le meilleur que j'ai pu obtenir :
- 23,03 tokens de sortie/s @ 10 requêtes concurrentes
- TTFT moyen : ~60s
- TTFT médian : ~64s
Résultats de référence :
- 74,39 tokens de sortie/s @ 10 requêtes concurrentes
- TTFT moyen : ~9s
- TTFT médian : ~3,7s


26 févr. 2026
Tests initiaux pour Kimi-K2.5 via KTransformers+SGLang, sur un hybride 4x RTX Pro 6000 Blackwell + 640 Go/1,5 To de mémoire CPU déchargée. Calcul fourni par les pods Lium :
- 19,97 tok/s de sortie @ 10 requêtes concurrentes
- TTFT moyen : ~120s
- TTFT médian : ~102s
Il faut jouer avec les drapeaux KT pour optimiser davantage cette configuration, qui dépend fortement du nombre total de cœurs CPU du système et de la RAM disponible. L'interconnectivité GPU <-> PCIe <-> RAM est le goulet d'étranglement le plus évident.
Experts par couche MoE sur GPU :
--kt-num-gpu-experts=128
Cœurs CPU dédiés à l'inférence MoE :
--kt-cpuinfer=104
Les experts CPU travaillent en chevauchement avec le travail GPU :
--kt-max-deferred-experts-per-token=2
Max tokens par chunk de pré-remplissage :
--chunked-prefill-size=32658
Capture de graphique CUDA désactivée :
--disable-cuda-graph

Commande complète :
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OMP_NUM_THREADS=1
export MKL_NUM_THREADS=1
export OPENBLAS_NUM_THREADS=1
export NUMEXPR_NUM_THREADS=1
export VECLIB_MAXIMUM_THREADS=1
export PYTHONUNBUFFERED=1
exec python -m sglang.launch_server \
--model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-method RAWINT4 \
--trust-remote-code \
--served-model-name kimi_k2 \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--tensor-parallel-size 4 \
--enable-p2p-check \
--disable-shared-experts-fusion \
--disable-cuda-graph \
--host 0.0.0.0 \
--port 8000 \
--kt-cpuinfer 32 \
--kt-num-gpu-experts 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-gpu-prefill-token-threshold 1024 \
--kt-expert-placement-strategy uniform \
--mem-fraction-static 0.92 \
--enable-mixed-chunk \
--chunked-prefill-size 32658 \
--max-total-tokens 200000 \
--attention-backend flashinfer
62
Meilleurs
Classement
Favoris