Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Scalarea inferenței MoE este adesea comunicare + KV-cache bound: odată ce împingi paralelismul experților, decodarea poate deveni dominată de colective și dezechilibru, iar cei care pre-umplu pot bloca un întreg grup EP.
Rezultate noi ale benchmark-ului comunității pentru vLLM wide-EP pe H200 multi-nod (Coreweave, Infiniband + ConnectX-7):
- Susținut ~2.2k tokens/s per GPU H200 (în creștere față de ~1.5k tokens/s pe GPU) anterior
În postare împărtășim elementele cheie care permit acest lucru:
- Wide-EP ("--enable-expert-parallel") pentru eficiența MoE în stil DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) și Expert Parallel Load Balancing (EPLB)
- Căi de dezagregare și implementare prefill/decod prin llm-d, NVIDIA Dynamo și Ray Serve LLM
Limită superioară
Clasament
Favorite
