DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Kimi-K2.5 KTransformers+SGLangin kautta hybridi-GPU/CPU-muistin purkamisen konfiguraatio: 4x RTX Pro 6000 Blackwells + 640GB RAM Alkuperäinen lähtötaso oli 8x GPU:lla, jossa käytettiin synteettistä koodausagenttityyppistä työkuormaa, joka kohdistui 2k-45k input tokeneihin, 80-3k maksimilähtötokeneihin ja jopa 10 samanaikaiseen pyyntöön. Uusintajuoksu uudella hybridikokoonpanolla Paras, mitä sain aikaan: - 23.03 Lähtötokenit/s @ 10 samanaikaista pyyntöä - Keskimääräinen TTFT: ~60s - Mediaani TTFT: ~64s Lähtötulokset: - 74.39 Lähtötokenit/s @ 10 samanaikaista pyyntöä - Keskimääräinen TTFT: ~9s - Mediaani TTFT: ~3,7s

Täysi komento: vienti CUDA_VISIBLE_DEVICES=0,1,2,3 vienti OMP_NUM_THREADS=1 vienti MKL_NUM_THREADS=1 vienti OPENBLAS_NUM_THREADS=1 vienti NUMEXPR_NUM_THREADS=1 vienti VECLIB_MAXIMUM_THREADS=1 vienti PYTHONUNBUFFERED=1 Exec Python -m sglang.launch_server \ --model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-menetelmä RAWINT4 \ --luottamus-kauko-koodi \ --tarjoiltu-mallinimi kimi_k2 \ --työkalu-kutsu-jäsentäjä kimi_k2 \ --päättely-jäsentäjä kimi_k2 \ --poista-radix-välimuisti käytöstä \ --disable-chunked-prefix-cache \ --tensori-rinnakkaiskoko 4 \ --enable-p2p-check \ --pois käytöstä-jaettu-asiantuntijat-fuusio \ --disable-cuda-graph \ --isäntä 0.0.0.0 \ --portti 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-asiantuntijat 128 \ --kt-max-viivästetty-asiantuntijat-per tokeni 2 \ --kt-gpu-prefill-token-kynnys 1024 \ --kt-asiantuntija-sijoitusstrategia-uniformu \ --mem-fraktio-staattinen 0,92 \ --enable-mixed-chunk \ --chunked-prefill-koko 32658 \ --maksimi-yhteen-tokenit 200000 \ --huomio-taustan flashinfer

60

Johtavat

Rankkaus

Suosikit