Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 via KTransformers+SGLang på en hybrid GPU/CPU-minnesavlastkonfiguration: 4x RTX Pro 6000 Blackwells + 640GB RAM
Den ursprungliga baslinjen var på 8x GPU:er med en syntetisk kodagent-liknande arbetsbelastning med sikte på 2k-45k inmatningstokens, 80-3k maxutmatningstokens och med upp till 10 samtidiga förfrågningar. Körde om på den nya hybriduppsättningen
Det bästa jag kunde få:
- 23.03 utdatatokens/s @ 10 samtidiga förfrågningar
- Genomsnittlig TTFT: ~60 sekunder
- Median TTFT: ~64 sekunder
Baslinjeresultat:
- 74,39 utdatatokens/s @ 10 samtidiga förfrågningar
- Medel-TTFT: ~9s
- Median TTFT: ~3,7 s.


26 feb. 2026
Inledande tester för Kimi-K2.5 via KTransformers+SGLang, på en hybrid 4x RTX Pro 6000 Blackwell + 640GB/1,5TB CPU-minnesavlastning. Beräkningar tillhandahållna av Lium pods:
- 19,97 utdata tok/s @ 10 samtidiga förfrågningar
- Genomsnittlig TTFT: ~120s
- Median TTFT: ~102s
Man behöver leka med KT-flaggorna för att optimera denna setup ytterligare, vilket är starkt beroende av systemets totala CPU-kärnantal och tillgängligt RAM. GPU <-> PCIe <-> RAM-sammankoppling är den mest uppenbara flaskhalsen
Experter enligt MoE-lagret på GPU:n:
--kt-num-gpu-experts=128
CPU-kärnor dedikerade till MoE-inferens:
--kt-cpuinfer=104
CPU-experter arbetar med överlappande GPU-arbete:
--kt-max-deferred-experts-per-token=2
Maxantal tokens per prefill-chunk:
--chunked-prefill-size=32658
CUDA-graffångst inaktiverad:
--disable-cuda-graph

Full kommando:
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OMP_NUM_THREADS=1
exportera MKL_NUM_THREADS=1
export OPENBLAS_NUM_THREADS=1
export NUMEXPR_NUM_THREADS=1
export VECLIB_MAXIMUM_THREADS=1
export PYTHONUNBUFFERED=1
exec python -m sglang.launch_server \
--model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-vikt-väg /arbetsyta/modeller/huggingface/modeller--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-metoden RAWINT4 \
--trust-remote-code \
--tjänade-modell-namn kimi_k2 \
--verktygssamtal-parser kimi_k2 \
--resonerande-parser kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--tensor-parallell-storlek 4 \
--aktivera-p2p-check \
--inaktivera-delade-experter-fusion \
--inaktivera-cuda-graf \
--värd 0.0.0.0 \
--port 8000 \
--kt-cpuinfer 32 \
--kt-num-gpu-experts 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-gpu-prefill-token-threshold 1024 \
--kt-expert-placeringsstrategi-uniform \
--mem-fraktion-statisk 0,92 \
--aktivera-blandad-chunk \
--chunked-prefill-storlek 32658 \
--max-total-tokens 200000 \
--uppmärksamhet-backend flashinfer
78
Topp
Rankning
Favoriter