Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Estamos trabajando con la comunidad OSS para eliminar las conjeturas del servicio desagregado integrando NVIDIA Dynamo en la pila, con soporte para todos los principales frameworks de servicio de inferencia. 🔹 @sgl_project comunidad está mejorando el rendimiento de la inferencia de IA, reduciendo las conjeturas y permitiendo una ejecución de modelos más rápida, eficiente y escalable. 🔹 Mooncake AI construyó el primer backend SGLang para AIConfigurator, permitiendo soporte rápido para modelos como Llama, Qwen y DeepSeek mediante la implementación de la capa colectora para operaciones centrales como GEMM y atención. 🔹 @alibaba_cloud integró AIConfigurator en su AI Serving Stack on Kubernetes (ACK), utilizando el motor de orquestación RoleBasedGroup (RBG) para automatizar despliegues y gestionar la desagregación de pre-llenado/decodificación. El resultado: 1,86× mayor rendimiento en Qwen3-235B-FP8 manteniendo TTFT < 5 s y ITL < 40 ms. Lee el blog técnico →

Populares

Ranking

Favoritas