Alkuvaiheen testit Kimi-K2.5:lle KTransformers+SGLangin kautta, hybridi-4x RTX Pro 6000 Blackwell + 640GB/1,5TB CPU-muistin purkamisella. Laskenta tarjoaa Lium-podit: - 19.97 Ulostulo tok/s @ 10 samanaikaista pyyntöä - Keskimääräinen TTFT: ~120s - Mediaani TTFT: ~102s Täytyy leikkiä KT-lippujen kanssa tämän asetelman optimoimiseksi, joka riippuu vahvasti koko järjestelmän suorittimen ytimien määrästä ja käytettävissä olevasta RAM-muistista. GPU <-> PCIe <-> RAM-yhteys on ilmeisin pullonkaula Asiantuntijat per MoE-kerros GPU:ssa: --kt-num-gpu-asiantuntijat=128 Suorittimen ytimet, jotka on omistettu MoE-päättelyyn: --kt-cpuinfer=104 CPU-asiantuntijat työskentelevät päällekkäisten GPU-töiden kanssa: --kt-max-deferred-experts-per-token=2 Maksimitokenit per prefill-lohko: --chunked-prefill-size=32658 CUDA-graafin kaappaus pois päältä: --disable-cuda-graph
Yannick Nick
Yannick Nick25.2.2026
Käytössä on Kimi-K2.5 8x RTX Pro 6000 Blackwellsillä, ja suunnitelmissa on testata CPU/GPU-hybridipäättelyjärjestelmää KTransformers+SGLangin avulla neljällä samoilla näytönohjaimilla Olen todella utelias arvioimaan hybridikokoonpanon kokonaissuorituskykyä verrattuna kvantisoituun Kimi-K2.5-sovitukseen neljän GPU:n välillä. Hybridijärjestelmä vaatii lähes 768GB RAM-muistia Aluksi tässä on vertailukohta 8x GPU:lle käyttäen synteettistä koodausagenttityyppistä työkuormaa, joka kohdistuu 2k-45k input tokeneihin, 80-3k maksimilähtötokeneihin ja jopa 10 samanaikaiseen pyyntöön. SGLangin --mem-fraction-staattinen lippu on asetettu arvoon 0,90 Peruskeskimääräinen läpimeno: ~74 lähtötokenia/s @ 10 samanaikaista pyyntöä
KTransformers+SGLang liputtavat teoksen jäljentämiseksi: ========== vienti CUDA_VISIBLE_DEVICES=0,1,2,3 vienti OMP_NUM_THREADS=1 vienti MKL_NUM_THREADS=1 vienti OPENBLAS_NUM_THREADS=1 vienti NUMEXPR_NUM_THREADS=1 vienti VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --mallipolku <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-threadpool-count 2 \ --kt-num-gpu-asiantuntijat 128 \ --kt-max-viivästetty-asiantuntijat-per tokeni 2 \ --kt-menetelmä RAWINT4 \ --kt-gpu-prefill-token-kynnys 400 \ --kt-asiantuntija-sijoitusstrategia-uniformu \ --luottamus-kauko-koodi \ --mem-fraktio-staattinen 0,90 \ --tarjoiltu-mallinimi kimi_k2 \ --työkalu-kutsu-jäsentäjä kimi_k2 \ --päättely-jäsentäjä kimi_k2 \ --poista-radix-välimuisti käytöstä \ --disable-chunked-prefix-cache \ --enable-mixed-chunk \ --tensori-rinnakkaiskoko 4 \ --enable-p2p-check \ --pois käytöstä-jaettu-asiantuntijat-fuusio \ --chunked-prefill-koko 32658 \ --maksimi-yhteen-tokenit 120000 \ --huomio-taustan flashinfer \ --disable-cuda-graph \ --isäntä 0.0.0.0 \ --portti 8000
147