Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Kimi-K2.5 vía KTransformers+SGLang en una configuración híbrida de descarga de memoria GPU/CPU: 4 Blackwells RTX Pro 6000 + 640GB de RAM La base original estaba en 8 GPUs usando una carga de trabajo tipo agente de codificación sintética dirigida a tokens de entrada de 2k-45k, tokens máximos de salida de 80-3k y con hasta 10 solicitudes concurrentes. Volvió a correr en la nueva configuración híbrida Lo mejor que pude conseguir: - 23.03 tokens/s de salida @ 10 solicitudes concurrentes - TTFT media: ~60s - TTFT media: ~64s Resultados iniciales: - 74,39 tokens/s de salida @ 10 solicitudes concurrentes - TTFT media: ~9s - TTFT mediana: ~3,7s

Comando completo: exportación CUDA_VISIBLE_DEVICES=0,1,2,3 exportar OMP_NUM_THREADS=1 exportar MKL_NUM_THREADS=1 exportar OPENBLAS_NUM_THREADS=1 exportar NUMEXPR_NUM_THREADS=1 exportar VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 Ejecutiva Python -M sglang.launch_server \ --model-path /espacio de trabajo/modelos/hughugface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /espacio de trabajo/modelos/rostro de abrazo/modelos--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-método RAWINT4 \ --código-remoto-confianza \ --nombre-de-modelo-servido kimi_k2 \ --analizador de llamadas a herramientas kimi_k2 \ --analizador de razonamiento kimi_k2 \ --desactivar-caché-radix \ --desactivar la caché de prefijo-fragmentada \ --tensor-paralelo-tamaño 4 \ --activar-p2p-check \ --deshabilitar la fusión de expertos compartidos \ --desactivar-cuda-grafo \ --presentador 0.0.0.0 \ --puerto 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-expertos 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-gpu-prefill-token-threshold 1024 \ --kt-experto-estrategia-estrategia-uniforme \ --mem-fracción-estática 0,92 \ --activar-fragmento-mixto\ --tamaño de pre-relleno en trozos 32658 \ --máximo-total-tokens 200000 \ --atención-backend flashinfer

80

Populares

Ranking

Favoritas