Kimi-K2.5 için KTransformers+SGLang ile hibrit 4x RTX Pro 6000 Blackwell + 640GB/1.5TB CPU bellek boşaltma ile ilk testler. Lium podları tarafından sağlanan hesaplama: - 19.97 Tok / s çıkışı @ 10 eşzamanlı istek - Ortalama TTFT: ~120s - Medyan TTFT: ~102s Bu kurulumu daha da optimize etmek için KT bayraklarıyla oynamam gerekiyor; bu sistem büyük ölçüde sistemin genel CPU çekirdek sayısına ve mevcut RAM'e bağlı. GPU <-> PCIe <-> RAM bağlantısı en belirgin darboğazdır GPU için MoE Katmanı Uzmanları: --kt-num-gpu-experts=128 MoE çıkarımına adanmış CPU çekirdekleri: --kt-cpuinfer=104 CPU uzmanları GPU ile örtüşen işleri üzerinde çalışır: --kt-max-deferred-experts-per-token=2 Ön doldurma parçası başına maksimum token: --chunked-prefill-size=32658 CUDA grafik yakalama devre dışı bırakıldı: --devre dışı bırakmak-cuda-grafiği
Yannick Nick
Yannick Nick25 Şub 2026
8x RTX Pro 6000 Blackwell'lerde Kimi-K2.5 çalıştırıyorum ve sonunda KTransformers+SGLang ile aynı GPU'lardan 4x üzerinde CPU/GPU hibrit çıkarım kurulumunu test etmeyi planlıyorum Hibrit kurulumun genel performansını, 4 GPU arasında kuantize edilmiş Kimi-K2.5 uyumuyla karşılaştırmak için çok merak ediyorum. Hibrit kurulum yaklaşık 768GB RAM gerektiriyor Başlamak için, 2k-45k giriş tokenları, 80-3k maksimum çıkış tokenları ve 10 eşzamanlı isteğe sahip sentetik kodlama ajanı tarzı iş yükü kullanılarak 8x GPU arasında bir temel durum var. SGLang'ın --mem-fraction-static bayrağı 0.90'a ayarlanmıştır Temel ortalama veri kapasitesi: ~74 çıkış token/s @ 10 eşzamanlı istek
KTransformers+SGLang bayrakları çalışmayı yeniden üretmek için: ========== ihracat CUDA_VISIBLE_DEVICES=0,1,2,3 ihracat OMP_NUM_THREADS=1 ihracat MKL_NUM_THREADS=1 ihracat OPENBLAS_NUM_THREADS=1 ihracat NUMEXPR_NUM_THREADS=1 ihracat VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-threadpool-count 2 \ --kt-num-gpu-uzmanlar 128 \ --kt-max-ertelenmiş-uzmanlar-token-başına 2 \ --kt-yöntemi RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-uzman-yerleştirme-stratejisi üniforması \ --güven-uzaktan kod \ --mem-fraksiyon-statik 0.90 \ --servis edilen model-adı kimi_k2 \ --alet-çağrı-ayrıştırıcı kimi_k2 \ --mantık ayrıştırıcı kimi_k2 \ --radix-cache devre dışı bırak \ --devre dışı bırak-chunked-prefix-cache \ --karışık-parçayı etkinleştir \ --tensor-paralel-boyut 4 \ --etkinleştir-p2p-kontrol \ --devre dışı bırakmak-paylaşılan-uzman-füzyon \ --parçalı ön doldurma boyutu 32658 \ --maksimum-toplam-jeton 120000 \ --dikkat-arka uç flashinfer \ --devre dışı bırakmak-cuda-grafiği \ --host 0.0.0.0 \ --port 8000
144