Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 melalui KTransformers+SGLang pada konfigurasi pembongkaran memori GPU/CPU hibrida: 4x RTX Pro 6000 Blackwells + RAM 640GB
Garis besar aslinya adalah pada 8x GPU menggunakan beban kerja gaya agen pengkodean sintetis yang menargetkan 2k-45k token input, 80-3k token output maks, dan dengan hingga 10 permintaan bersamaan. Berjalan kembali pada pengaturan hybrid baru
Yang terbaik yang bisa saya dapatkan:
- 23.03 token keluaran @ 10 permintaan bersamaan
- Rata-rata TTFT: ~60 detik
- TTFT Median: ~64 detik
Hasil dasar:
- 74,39 token keluaran @ 10 permintaan bersamaan
- TTFT rata-rata: ~9 detik
- TTFT Median: ~3.7 detik


26 Feb 2026
Pengujian awal untuk Kimi-K2.5 melalui KTransformers+SGLang, pada hybrid 4x RTX Pro 6000 Blackwell + 640GB/1.5TB memory offload. Komputasi yang disediakan oleh pod Lium:
- 19,97 keluaran tok/s @ 10 permintaan bersamaan
- TTFT rata-rata: ~120 detik
- TTFT Median: ~102 detik
Perlu bermain dengan bendera KT untuk lebih mengoptimalkan pengaturan ini, yang sangat bergantung pada jumlah inti CPU sistem secara keseluruhan & RAM yang tersedia. Interkonektivitas RAM <-> PCIe <-> GPU adalah hambatan yang paling jelas
Pakar per Lapisan MoE pada GPU:
--kt-num-gpu-experts=128
Inti CPU yang didedikasikan untuk inferensi MoE:
--kt-cpuinfer=104
Pakar CPU bekerja tumpang tindih pekerjaan GPU:
--kt-max-deferred-experts-per-token=2
Token maksimum per potongan pra-isian:
--chunked-prefill-size=32658
Pengambilan grafik CUDA dinonaktifkan:
--nonaktifkan-cuda-grafik

Perintah penuh:
ekspor CUDA_VISIBLE_DEVICES=0,1,2,3
ekspor OMP_NUM_THREADS=1
ekspor MKL_NUM_THREADS=1
ekspor OPENBLAS_NUM_THREADS=1
ekspor NUMEXPR_NUM_THREADS=1
ekspor VECLIB_MAXIMUM_THREADS=1
ekspor PYTHONUNBUFFERED=1
exec python -m sglang.launch_server \
--model-path /ruang kerja/model/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-weight-path /ruang kerja/model/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-metode RAWINT4 \
--trust-remote-code \
--served-model-name kimi_k2 \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--tensor-paralel-ukuran 4 \
--aktifkan-p2p-periksa \
--nonaktifkan-bersama-ahli-fusi \
--nonaktifkan-cuda-graph \
--host 0.0.0.0 \
--port 8000 \
--kt-cpuinfer 32 \
--kt-num-gpu-ahli 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-gpu-prefill-token-threshold 1024 \
--kt-expert-penempatan-strategi seragam \
--mem-pecahan-statis 0,92 \
--aktifkan-campuran-potongan \
--chunked-prefill-size 32658 \
--max-total-token 200000 \
--attention-backend flashinfer
59
Teratas
Peringkat
Favorit