Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Współpracujemy z społecznością OSS, aby wyeliminować zgadywanie w rozproszonym serwowaniu, integrując NVIDIA Dynamo w stosie, z wsparciem dla wszystkich głównych frameworków serwowania inferencji.
🔹 Społeczność @sgl_project poprawia wydajność inferencji AI — redukując zgadywanie i umożliwiając szybsze, bardziej efektywne i skalowalne wykonywanie modeli.
🔹 Mooncake AI stworzył pierwszy backend SGLang dla AIConfigurator, umożliwiając szybkie wsparcie dla modeli takich jak Llama, Qwen i DeepSeek poprzez wdrożenie warstwy kolektora dla podstawowych operacji, takich jak GEMM i uwaga.
🔹 @alibaba_cloud zintegrował AIConfigurator w swoim Stosie Serwowania AI na Kubernetes (ACK), używając silnika orkiestracji RoleBasedGroup (RBG) do automatyzacji wdrożeń i zarządzania rozdzieleniem prefill/decode.
Rezultat: 1,86× wyższa przepustowość na Qwen3-235B‑FP8 przy zachowaniu TTFT < 5 s i ITL < 40 ms.
Przeczytaj blog techniczny →

Najlepsze
Ranking
Ulubione
