Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Het schalen van MoE-inferentie is vaak communicatie + KV-cache gebonden: zodra je expert-parallelisme toepast, kan decoderen gedomineerd worden door collectieven en onevenwichtigheid, en kunnen prefill-stragglers een hele EP-groep stilleggen.
Nieuwe community benchmarkresultaten voor vLLM wide-EP op multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Duurzaam ~2.2k tokens/s per H200 GPU (stijging van eerder ~1.5k tokens/s per GPU)
In de post delen we de belangrijkste onderdelen die dit mogelijk maken:
- Wide-EP (`--enable-expert-parallel`) voor DeepSeek-stijl MoE + MLA KV-efficiëntie
- DeepEP all-to-all, Dual-batch Overlap (DBO) en Expert Parallel Load Balancing (EPLB)
- Prefill/Decode ontkoppeling en implementatiepaden via llm-d, NVIDIA Dynamo en Ray Serve LLM
Boven
Positie
Favorieten
