Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir arbeiten mit der OSS-Community zusammen, um das Rätselraten bei der disaggregierten Bereitstellung zu beseitigen, indem wir NVIDIA Dynamo in den Stack integrieren, mit Unterstützung für alle wichtigen Inferenz-Serving-Frameworks.
🔹 Die @sgl_project-Community verbessert die AI-Inferenzleistung – sie reduziert das Rätselraten und ermöglicht eine schnellere, effizientere und skalierbare Modellausführung.
🔹 Mooncake AI hat das erste SGLang-Backend für AIConfigurator entwickelt, das eine schnelle Unterstützung für Modelle wie Llama, Qwen und DeepSeek ermöglicht, indem die Collector-Schicht für Kernoperationen wie GEMM und Attention implementiert wird.
🔹 @alibaba_cloud hat AIConfigurator in seinen AI Serving Stack auf Kubernetes (ACK) integriert und nutzt die RoleBasedGroup (RBG) Orchestrierungs-Engine, um Bereitstellungen zu automatisieren und die Disaggregation von Vorbefüllung/Dekodierung zu verwalten.
Das Ergebnis: 1,86× höhere Durchsatzrate bei Qwen3-235B‑FP8 bei gleichzeitiger Beibehaltung von TTFT < 5 s und ITL < 40 ms.
Lesen Sie den technischen Blog →

Top
Ranking
Favoriten
