Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 přes KTransformers+SGLang na hybridní konfiguraci GPU/CPU pro přetížení paměti: 4x RTX Pro 6000 Blackwell + 640GB RAM
Původní základ byl na 8x GPU používajících syntetický kódovací agentní styl s cílem 2k-45k vstupních tokenů, 80-3k maximálně výstupních tokenů a až 10 současných požadavků. Znovu jsem to nastartoval na novém hybridním nastavení
Nejlepší, co jsem mohl získat:
- 23,03 výstupních tokenů/s @ 10 současných požadavků
- Průměrná TTFT: ~60 s
- Medián TTFT: ~64 s
Základní výsledky:
- 74,39 výstupních tokenů/s @ 10 současných požadavků
- Průměr TTFT: ~9s
- Medián TTFT: ~3,7 s


26. 2. 2026
Počáteční testy pro Kimi-K2.5 přes KTransformers+SGLang na hybridním 4x RTX Pro 6000 Blackwell + 640GB/1,5TB CPU offload. Výpočet poskytly Lium pods:
- 19,97 výstupních tok/s @ 10 současných požadavků
- Průměrná TTFT: ~120 s
- Medián TTFT: ~102 s
Je potřeba si pohrát s KT flagy, abych tuto konfiguraci ještě více optimalizoval, což hodně závisí na celkovém počtu jader CPU a dostupné RAM systému. Nejzřetelnější úzké hrdlo je propojení GPU <-> PCIe <-> RAM
Experti na vrstvu MoE na GPU:
--kt-num-gpu-experts=128
Jádra CPU určená pro inferenci MoE:
--kt-cpuinfer=104
Odborníci na CPU pracují na překrývající se GPU:
--kt-max-deferred-experts-per-token=2
Maximální počet tokenů na jeden blok předplnění:
--chunked-prefill-size=32658
Zachycení grafů CUDA zakázáno:
--vypnout-cuda-graf

Plné velení:
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OMP_NUM_THREADS=1
export MKL_NUM_THREADS=1
export OPENBLAS_NUM_THREADS=1
export NUMEXPR_NUM_THREADS=1
export VECLIB_MAXIMUM_THREADS=1
export PYTHONUNBUFFERED=1
exec python -m sglang.launch_server \
--model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83e83fa343a1331754112fb9e3410c55efa2f \
--kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83e83fa343a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-metoda RAWINT4 \
--důvěřuj-remote-code \
--obsloužené-jméno modelky kimi_k2 \
--parser pro volání nástrojů kimi_k2 \
--rozumový parser kimi_k2 \
--disable-radix-cache \
--disaktiv-chunked-prefix-cache \
--tenzor-paralelní-velikost 4 \
--enable-p2p-check \
--deaktivovat-sdílené-experty-fúze \
--disable-cuda-graph \
--host 0.0.0.0 \
--port 8000 \
--kt-cpuinfer 32 \
--kt-num-GPU-experti 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-gpu-prefill-token-threshold 1024 \
--kt-expert-placement-strategy uniform \
--mem-fraction-static 0,92 \
--umožnit-smíšený-chunk \
--velikost předplnění 32658 \
--max-total-tokens 200000 \
--attention-backend flashinfer
78
Top
Hodnocení
Oblíbené