Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Skalning av MoE-inferens är ofta kommunikations- + KV-cache-gräns: när du driver expertparallellism kan avkodning bli dominerad av kollektiv och obalans, och prefill-eftersläntrare kan stoppa en hel EP-grupp.
Nya community-benchmarkresultat för vLLM wide-EP på flernods-H200 (Coreweave, Infiniband + ConnectX-7):
- Uthålligt ~2,2k tokens/s per H200 GPU (upp från tidigare ~1,5k tokens/s per GPU)
I inlägget delar vi med oss av de viktigaste delarna som möjliggör detta:
- Wide-EP ('--enable-expert-parallel') för DeepSeek-stil MoE + MLA KV-effektivitet
- DeepEP all-till-alla, Dual-batch Overlap (DBO) och Expert Parallel Load Balancing (EPLB)
- Prefill/Decode disaggregeringar och distributionsvägar via LLM-d, NVIDIA Dynamo och Ray Serve LLM
Topp
Rankning
Favoriter
