DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Teste inițiale pentru Kimi-K2.5 prin KTransformers+SGLang, pe un Blackwell hibrid 4x RTX Pro 6000 + 640GB/1,5TB memorie CPU offload. Calcul oferit de capsulele Lium: - 19,97 tok/s de ieșire @ 10 cereri concurente - TTFT medie: ~120s - TTFT median: ~102s Trebuie să te joci cu steagurile KT pentru a optimiza și mai mult această configurație, care depinde foarte mult de numărul total de nuclee CPU ale sistemului și de memoria RAM disponibilă. Interconectivitatea GPU <-> PCIe <-> RAM este cel mai evident blocaj Experți pe strat MoE pe GPU: --kt-num-gpu-experți=128 Nuclee CPU dedicate inferenței MoE: --kt-cpuinfer=104 Experții în CPU lucrează suprapunând lucrările GPU: --kt-max-deferred-experts-per-token=2 Jetoane maxime pe bucată preumplută: --chunked-prefill-size=32658 Capturarea graficului CUDA dezactivată: --disable-cuda-graph

Steaguri KTransformers+SGLang pentru a reproduce lucrările: ========== export CUDA_VISIBLE_DEVICES=0,1,2,3 export OMP_NUM_THREADS=1 Export MKL_NUM_THREADS=1 export OPENBLAS_NUM_THREADS=1 export NUMEXPR_NUM_THREADS=1 export VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --<HF_PATH>model-path /modele--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/modele--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-pool-threadpool-count 2 \ --kt-num-gpu-experți 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-method RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-expert-plasare-strategie uniformă \ --trust-remote-code \ --mem-fracție-static 0.90 \ --nume-model-servit kimi_k2 \ --parser-tool-call-kimi_k2 \ --analizator de raționament kimi_k2 \ --dezactivează-cache-radix \ --disable-chunked-prefix-cache-cache \ --permite-mixed-hunk \ --tensor-paralel-dimensiune 4 \ --activare-p2p-check \ --disabled-shared-experts-fusion \ --mărimea preumplută cu bucăți 32658 \ --max-total-tokens 120000 \ --atenție-backend flashinfer \ --disable-cuda-graph \ --gazdă 0.0.0.0 \ --port 8000

142

Limită superioară

Clasament

Favorite