Scalarea inferenței MoE este adesea comunicare + KV-cache bound: odată ce împingi paralelismul experților, decodarea poate deveni dominată de colective și dezechilibru, iar cei care pre-umplu pot bloca un întreg grup EP. Rezultate noi ale benchmark-ului comunității pentru vLLM wide-EP pe H200 multi-nod (Coreweave, Infiniband + ConnectX-7): - Susținut ~2.2k tokens/s per GPU H200 (în creștere față de ~1.5k tokens/s pe GPU) anterior În postare împărtășim elementele cheie care permit acest lucru: - Wide-EP ("--enable-expert-parallel") pentru eficiența MoE în stil DeepSeek + MLA KV - DeepEP all-to-all, Dual-batch Overlap (DBO) și Expert Parallel Load Balancing (EPLB) - Căi de dezagregare și implementare prefill/decod prin llm-d, NVIDIA Dynamo și Ray Serve LLM