DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Nous travaillons avec la communauté OSS pour éliminer les incertitudes liées au service désagrégé en intégrant NVIDIA Dynamo dans la pile, avec le support de tous les principaux frameworks de service d'inférence. 🔹 La communauté @sgl_project améliore les performances d'inférence AI—réduisant les incertitudes et permettant une exécution de modèle plus rapide, plus efficace et évolutive. 🔹 Mooncake AI a construit le premier backend SGLang pour AIConfigurator, permettant un support rapide pour des modèles comme Llama, Qwen et DeepSeek en implémentant la couche de collecte pour des opérations de base telles que GEMM et l'attention. 🔹 @alibaba_cloud a intégré AIConfigurator dans sa pile de service AI sur Kubernetes (ACK), utilisant le moteur d'orchestration RoleBasedGroup (RBG) pour automatiser les déploiements et gérer la désagrégation de pré-remplissage/décodage. Le résultat : un débit 1,86× plus élevé sur Qwen3-235B‑FP8 tout en maintenant un TTFT < 5 s et un ITL < 40 ms. Lisez le blog technique →

Meilleurs

Classement

Favoris