Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 KTransformers+SGLangin kautta hybridi-GPU/CPU-muistin purkamisen konfiguraatio: 4x RTX Pro 6000 Blackwells + 640GB RAM
Alkuperäinen lähtötaso oli 8x GPU:lla, jossa käytettiin synteettistä koodausagenttityyppistä työkuormaa, joka kohdistui 2k-45k input tokeneihin, 80-3k maksimilähtötokeneihin ja jopa 10 samanaikaiseen pyyntöön. Uusintajuoksu uudella hybridikokoonpanolla
Paras, mitä sain aikaan:
- 23.03 Lähtötokenit/s @ 10 samanaikaista pyyntöä
- Keskimääräinen TTFT: ~60s
- Mediaani TTFT: ~64s
Lähtötulokset:
- 74.39 Lähtötokenit/s @ 10 samanaikaista pyyntöä
- Keskimääräinen TTFT: ~9s
- Mediaani TTFT: ~3,7s


26.2.2026
Alkuvaiheen testit Kimi-K2.5:lle KTransformers+SGLangin kautta, hybridi-4x RTX Pro 6000 Blackwell + 640GB/1,5TB CPU-muistin purkamisella. Laskenta tarjoaa Lium-podit:
- 19.97 Ulostulo tok/s @ 10 samanaikaista pyyntöä
- Keskimääräinen TTFT: ~120s
- Mediaani TTFT: ~102s
Täytyy leikkiä KT-lippujen kanssa tämän asetelman optimoimiseksi, joka riippuu vahvasti koko järjestelmän suorittimen ytimien määrästä ja käytettävissä olevasta RAM-muistista. GPU <-> PCIe <-> RAM-yhteys on ilmeisin pullonkaula
Asiantuntijat per MoE-kerros GPU:ssa:
--kt-num-gpu-asiantuntijat=128
Suorittimen ytimet, jotka on omistettu MoE-päättelyyn:
--kt-cpuinfer=104
CPU-asiantuntijat työskentelevät päällekkäisten GPU-töiden kanssa:
--kt-max-deferred-experts-per-token=2
Maksimitokenit per prefill-lohko:
--chunked-prefill-size=32658
CUDA-graafin kaappaus pois päältä:
--disable-cuda-graph

Täysi komento:
vienti CUDA_VISIBLE_DEVICES=0,1,2,3
vienti OMP_NUM_THREADS=1
vienti MKL_NUM_THREADS=1
vienti OPENBLAS_NUM_THREADS=1
vienti NUMEXPR_NUM_THREADS=1
vienti VECLIB_MAXIMUM_THREADS=1
vienti PYTHONUNBUFFERED=1
Exec Python -m sglang.launch_server \
--model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-menetelmä RAWINT4 \
--luottamus-kauko-koodi \
--tarjoiltu-mallinimi kimi_k2 \
--työkalu-kutsu-jäsentäjä kimi_k2 \
--päättely-jäsentäjä kimi_k2 \
--poista-radix-välimuisti käytöstä \
--disable-chunked-prefix-cache \
--tensori-rinnakkaiskoko 4 \
--enable-p2p-check \
--pois käytöstä-jaettu-asiantuntijat-fuusio \
--disable-cuda-graph \
--isäntä 0.0.0.0 \
--portti 8000 \
--kt-cpuinfer 32 \
--kt-num-gpu-asiantuntijat 128 \
--kt-max-viivästetty-asiantuntijat-per tokeni 2 \
--kt-gpu-prefill-token-kynnys 1024 \
--kt-asiantuntija-sijoitusstrategia-uniformu \
--mem-fraktio-staattinen 0,92 \
--enable-mixed-chunk \
--chunked-prefill-koko 32658 \
--maksimi-yhteen-tokenit 200000 \
--huomio-taustan flashinfer
60
Johtavat
Rankkaus
Suosikit