Kimi-K2.5 KTransformers+SGLangin kautta hybridi-GPU/CPU-muistin purkamisen konfiguraatio: 4x RTX Pro 6000 Blackwells + 640GB RAM Alkuperäinen lähtötaso oli 8x GPU:lla, jossa käytettiin synteettistä koodausagenttityyppistä työkuormaa, joka kohdistui 2k-45k input tokeneihin, 80-3k maksimilähtötokeneihin ja jopa 10 samanaikaiseen pyyntöön. Uusintajuoksu uudella hybridikokoonpanolla Paras, mitä sain aikaan: - 23.03 Lähtötokenit/s @ 10 samanaikaista pyyntöä - Keskimääräinen TTFT: ~60s - Mediaani TTFT: ~64s Lähtötulokset: - 74.39 Lähtötokenit/s @ 10 samanaikaista pyyntöä - Keskimääräinen TTFT: ~9s - Mediaani TTFT: ~3,7s
Yannick Nick
Yannick Nick26.2.2026
Alkuvaiheen testit Kimi-K2.5:lle KTransformers+SGLangin kautta, hybridi-4x RTX Pro 6000 Blackwell + 640GB/1,5TB CPU-muistin purkamisella. Laskenta tarjoaa Lium-podit: - 19.97 Ulostulo tok/s @ 10 samanaikaista pyyntöä - Keskimääräinen TTFT: ~120s - Mediaani TTFT: ~102s Täytyy leikkiä KT-lippujen kanssa tämän asetelman optimoimiseksi, joka riippuu vahvasti koko järjestelmän suorittimen ytimien määrästä ja käytettävissä olevasta RAM-muistista. GPU <-> PCIe <-> RAM-yhteys on ilmeisin pullonkaula Asiantuntijat per MoE-kerros GPU:ssa: --kt-num-gpu-asiantuntijat=128 Suorittimen ytimet, jotka on omistettu MoE-päättelyyn: --kt-cpuinfer=104 CPU-asiantuntijat työskentelevät päällekkäisten GPU-töiden kanssa: --kt-max-deferred-experts-per-token=2 Maksimitokenit per prefill-lohko: --chunked-prefill-size=32658 CUDA-graafin kaappaus pois päältä: --disable-cuda-graph
Täysi komento: vienti CUDA_VISIBLE_DEVICES=0,1,2,3 vienti OMP_NUM_THREADS=1 vienti MKL_NUM_THREADS=1 vienti OPENBLAS_NUM_THREADS=1 vienti NUMEXPR_NUM_THREADS=1 vienti VECLIB_MAXIMUM_THREADS=1 vienti PYTHONUNBUFFERED=1 Exec Python -m sglang.launch_server \ --model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-menetelmä RAWINT4 \ --luottamus-kauko-koodi \ --tarjoiltu-mallinimi kimi_k2 \ --työkalu-kutsu-jäsentäjä kimi_k2 \ --päättely-jäsentäjä kimi_k2 \ --poista-radix-välimuisti käytöstä \ --disable-chunked-prefix-cache \ --tensori-rinnakkaiskoko 4 \ --enable-p2p-check \ --pois käytöstä-jaettu-asiantuntijat-fuusio \ --disable-cuda-graph \ --isäntä 0.0.0.0 \ --portti 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-asiantuntijat 128 \ --kt-max-viivästetty-asiantuntijat-per tokeni 2 \ --kt-gpu-prefill-token-kynnys 1024 \ --kt-asiantuntija-sijoitusstrategia-uniformu \ --mem-fraktio-staattinen 0,92 \ --enable-mixed-chunk \ --chunked-prefill-koko 32658 \ --maksimi-yhteen-tokenit 200000 \ --huomio-taustan flashinfer
60