Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 için KTransformers+SGLang ile hibrit 4x RTX Pro 6000 Blackwell + 640GB/1.5TB CPU bellek boşaltma ile ilk testler. Lium podları tarafından sağlanan hesaplama:
- 19.97 Tok / s çıkışı @ 10 eşzamanlı istek
- Ortalama TTFT: ~120s
- Medyan TTFT: ~102s
Bu kurulumu daha da optimize etmek için KT bayraklarıyla oynamam gerekiyor; bu sistem büyük ölçüde sistemin genel CPU çekirdek sayısına ve mevcut RAM'e bağlı. GPU <-> PCIe <-> RAM bağlantısı en belirgin darboğazdır
GPU için MoE Katmanı Uzmanları:
--kt-num-gpu-experts=128
MoE çıkarımına adanmış CPU çekirdekleri:
--kt-cpuinfer=104
CPU uzmanları GPU ile örtüşen işleri üzerinde çalışır:
--kt-max-deferred-experts-per-token=2
Ön doldurma parçası başına maksimum token:
--chunked-prefill-size=32658
CUDA grafik yakalama devre dışı bırakıldı:
--devre dışı bırakmak-cuda-grafiği


25 Şub 2026
8x RTX Pro 6000 Blackwell'lerde Kimi-K2.5 çalıştırıyorum ve sonunda KTransformers+SGLang ile aynı GPU'lardan 4x üzerinde CPU/GPU hibrit çıkarım kurulumunu test etmeyi planlıyorum
Hibrit kurulumun genel performansını, 4 GPU arasında kuantize edilmiş Kimi-K2.5 uyumuyla karşılaştırmak için çok merak ediyorum. Hibrit kurulum yaklaşık 768GB RAM gerektiriyor
Başlamak için, 2k-45k giriş tokenları, 80-3k maksimum çıkış tokenları ve 10 eşzamanlı isteğe sahip sentetik kodlama ajanı tarzı iş yükü kullanılarak 8x GPU arasında bir temel durum var. SGLang'ın --mem-fraction-static bayrağı 0.90'a ayarlanmıştır
Temel ortalama veri kapasitesi:
~74 çıkış token/s @ 10 eşzamanlı istek

KTransformers+SGLang bayrakları çalışmayı yeniden üretmek için:
==========
ihracat CUDA_VISIBLE_DEVICES=0,1,2,3
ihracat OMP_NUM_THREADS=1
ihracat MKL_NUM_THREADS=1
ihracat OPENBLAS_NUM_THREADS=1
ihracat NUMEXPR_NUM_THREADS=1
ihracat VECLIB_MAXIMUM_THREADS=1
python -m sglang.launch_server \
--model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-cpuinfer 104 \
--kt-threadpool-count 2 \
--kt-num-gpu-uzmanlar 128 \
--kt-max-ertelenmiş-uzmanlar-token-başına 2 \
--kt-yöntemi RAWINT4 \
--kt-gpu-prefill-token-threshold 400 \
--kt-uzman-yerleştirme-stratejisi üniforması \
--güven-uzaktan kod \
--mem-fraksiyon-statik 0.90 \
--servis edilen model-adı kimi_k2 \
--alet-çağrı-ayrıştırıcı kimi_k2 \
--mantık ayrıştırıcı kimi_k2 \
--radix-cache devre dışı bırak \
--devre dışı bırak-chunked-prefix-cache \
--karışık-parçayı etkinleştir \
--tensor-paralel-boyut 4 \
--etkinleştir-p2p-kontrol \
--devre dışı bırakmak-paylaşılan-uzman-füzyon \
--parçalı ön doldurma boyutu 32658 \
--maksimum-toplam-jeton 120000 \
--dikkat-arka uç flashinfer \
--devre dışı bırakmak-cuda-grafiği \
--host 0.0.0.0 \
--port 8000
144
En İyiler
Sıralama
Takip Listesi