Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alkuvaiheen testit Kimi-K2.5:lle KTransformers+SGLangin kautta, hybridi-4x RTX Pro 6000 Blackwell + 640GB/1,5TB CPU-muistin purkamisella. Laskenta tarjoaa Lium-podit:
- 19.97 Ulostulo tok/s @ 10 samanaikaista pyyntöä
- Keskimääräinen TTFT: ~120s
- Mediaani TTFT: ~102s
Täytyy leikkiä KT-lippujen kanssa tämän asetelman optimoimiseksi, joka riippuu vahvasti koko järjestelmän suorittimen ytimien määrästä ja käytettävissä olevasta RAM-muistista. GPU <-> PCIe <-> RAM-yhteys on ilmeisin pullonkaula
Asiantuntijat per MoE-kerros GPU:ssa:
--kt-num-gpu-asiantuntijat=128
Suorittimen ytimet, jotka on omistettu MoE-päättelyyn:
--kt-cpuinfer=104
CPU-asiantuntijat työskentelevät päällekkäisten GPU-töiden kanssa:
--kt-max-deferred-experts-per-token=2
Maksimitokenit per prefill-lohko:
--chunked-prefill-size=32658
CUDA-graafin kaappaus pois päältä:
--disable-cuda-graph


25.2.2026
Käytössä on Kimi-K2.5 8x RTX Pro 6000 Blackwellsillä, ja suunnitelmissa on testata CPU/GPU-hybridipäättelyjärjestelmää KTransformers+SGLangin avulla neljällä samoilla näytönohjaimilla
Olen todella utelias arvioimaan hybridikokoonpanon kokonaissuorituskykyä verrattuna kvantisoituun Kimi-K2.5-sovitukseen neljän GPU:n välillä. Hybridijärjestelmä vaatii lähes 768GB RAM-muistia
Aluksi tässä on vertailukohta 8x GPU:lle käyttäen synteettistä koodausagenttityyppistä työkuormaa, joka kohdistuu 2k-45k input tokeneihin, 80-3k maksimilähtötokeneihin ja jopa 10 samanaikaiseen pyyntöön. SGLangin --mem-fraction-staattinen lippu on asetettu arvoon 0,90
Peruskeskimääräinen läpimeno:
~74 lähtötokenia/s @ 10 samanaikaista pyyntöä

KTransformers+SGLang liputtavat teoksen jäljentämiseksi:
==========
vienti CUDA_VISIBLE_DEVICES=0,1,2,3
vienti OMP_NUM_THREADS=1
vienti MKL_NUM_THREADS=1
vienti OPENBLAS_NUM_THREADS=1
vienti NUMEXPR_NUM_THREADS=1
vienti VECLIB_MAXIMUM_THREADS=1
python -m sglang.launch_server \
--mallipolku <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-cpuinfer 104 \
--kt-threadpool-count 2 \
--kt-num-gpu-asiantuntijat 128 \
--kt-max-viivästetty-asiantuntijat-per tokeni 2 \
--kt-menetelmä RAWINT4 \
--kt-gpu-prefill-token-kynnys 400 \
--kt-asiantuntija-sijoitusstrategia-uniformu \
--luottamus-kauko-koodi \
--mem-fraktio-staattinen 0,90 \
--tarjoiltu-mallinimi kimi_k2 \
--työkalu-kutsu-jäsentäjä kimi_k2 \
--päättely-jäsentäjä kimi_k2 \
--poista-radix-välimuisti käytöstä \
--disable-chunked-prefix-cache \
--enable-mixed-chunk \
--tensori-rinnakkaiskoko 4 \
--enable-p2p-check \
--pois käytöstä-jaettu-asiantuntijat-fuusio \
--chunked-prefill-koko 32658 \
--maksimi-yhteen-tokenit 120000 \
--huomio-taustan flashinfer \
--disable-cuda-graph \
--isäntä 0.0.0.0 \
--portti 8000
147
Johtavat
Rankkaus
Suosikit