DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Kimi-K2.5 melalui KTransformers+SGLang pada konfigurasi pembongkaran memori GPU/CPU hibrida: 4x RTX Pro 6000 Blackwells + RAM 640GB Garis besar aslinya adalah pada 8x GPU menggunakan beban kerja gaya agen pengkodean sintetis yang menargetkan 2k-45k token input, 80-3k token output maks, dan dengan hingga 10 permintaan bersamaan. Berjalan kembali pada pengaturan hybrid baru Yang terbaik yang bisa saya dapatkan: - 23.03 token keluaran @ 10 permintaan bersamaan - Rata-rata TTFT: ~60 detik - TTFT Median: ~64 detik Hasil dasar: - 74,39 token keluaran @ 10 permintaan bersamaan - TTFT rata-rata: ~9 detik - TTFT Median: ~3.7 detik

Perintah penuh: ekspor CUDA_VISIBLE_DEVICES=0,1,2,3 ekspor OMP_NUM_THREADS=1 ekspor MKL_NUM_THREADS=1 ekspor OPENBLAS_NUM_THREADS=1 ekspor NUMEXPR_NUM_THREADS=1 ekspor VECLIB_MAXIMUM_THREADS=1 ekspor PYTHONUNBUFFERED=1 exec python -m sglang.launch_server \ --model-path /ruang kerja/model/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /ruang kerja/model/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-metode RAWINT4 \ --trust-remote-code \ --served-model-name kimi_k2 \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --tensor-paralel-ukuran 4 \ --aktifkan-p2p-periksa \ --nonaktifkan-bersama-ahli-fusi \ --nonaktifkan-cuda-graph \ --host 0.0.0.0 \ --port 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-ahli 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-gpu-prefill-token-threshold 1024 \ --kt-expert-penempatan-strategi seragam \ --mem-pecahan-statis 0,92 \ --aktifkan-campuran-potongan \ --chunked-prefill-size 32658 \ --max-total-token 200000 \ --attention-backend flashinfer

59

Teratas

Peringkat

Favorit