分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Kimi-K2.5をKTransformers+SGLang経由で、ハイブリッドGPUとCPUメモリオフロード構成で使用:RTX Pro 6000 Blackwell4台+640GB RAM 元のベースラインは8倍GPUで、合成コーディングエージェントスタイルのワークロードを用いて、2k〜45kの入力トークン、最大80〜3kの出力トークン、最大10の同時要求を対象としていました。新しいハイブリッドセットアップで再実行しました私が得られた最良の情報: - 23.03 トークン/秒 @ 10件の同時要求を出力 - 平均TTFT:~60秒台 - 中央値TTFT:~64秒ベースライン結果: - 74.39 トークン/秒 @ 10件の同時要求を出力 - 平均TTFT:~9秒 - 中央値TTFT:~3.7秒

全指揮: エクスポートCUDA_VISIBLE_DEVICES=0,1,2,3 エクスポート OMP_NUM_THREADS=1 エクスポート MKL_NUM_THREADS=1 エクスポート OPENBLAS_NUM_THREADS=1 エクスポート NUMEXPR_NUM_THREADS=1 エクスポート VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 exec Python -m sglang.launch_server \ --model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-スレッドプールカウント 1 \ --kt-メソッドRAWINT4 \ --信頼リモートコード \ --提供されたモデル名 kimi_k2 \ --ツールコールパーサー kimi_k2 \ --推論解析器 kimi_k2 \ --disable-radix-cache \ --disable-チャンクプレフィックスキャッシュ \ --テンソル平行サイズ 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --無効化クーダグラフ \ --host 0.0.0.0 \ --ポート8000\ --KT-cpuinfer 32 \ --KT-num-GPU-エキスペンス 128 \ --kt-max-deferred-experts-per-token 2 \ --KT-GPU-プリフィル-トークン-閾値 1024 \ --kt-エキスパート配置戦略 uniform \ --記憶分数静止 0.92 \ --enable-mixed-chunk \ --チャンクプリフィルサイズ32658 \ --最大トータルトークン 200000 \ --注意-バックエンドフラッシュインファー

50

トップ

ランキング

お気に入り