Scalarea inferenței MoE este adesea comunicare + KV-cache bound: odată ce împingi paralelismul experților, decodarea poate deveni dominată de colective și dezechilibru, iar cei care pre-umplu pot bloca un întreg grup EP.
Rezultate noi ale benchmark-ului comunității pentru vLLM wide-EP pe H200 multi-nod (Coreweave, Infiniband + ConnectX-7):
- Susținut ~2.2k tokens/s per GPU H200 (în creștere față de ~1.5k tokens/s pe GPU) anterior
În postare împărtășim elementele cheie care permit acest lucru:
- Wide-EP ("--enable-expert-parallel") pentru eficiența MoE în stil DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) și Expert Parallel Load Balancing (EPLB)
- Căi de dezagregare și implementare prefill/decod prin llm-d, NVIDIA Dynamo și Ray Serve LLM
vLLM oferă o performanță de inferență și mai bună cu aceeași platformă GPU.
În doar 1 lună, am colaborat cu NVIDIA pentru a crește throughput-ul maxim @nvidia Blackwell pe GPU cu până la 33% – reducând semnificativ costul per token – permițând totodată o viteză de vârf și mai mare pentru cele mai sensibile cazuri de utilizare la latență, susținute de integrare și colaborare profundă cu PyTorch.
🎉Felicitări echipei @Zai_org pentru lansarea GLM-4.6V și GLM-4.6V-Flash — cu suport în ziua 0 pentru vLLM Recipes pentru echipele care doresc să le ruleze pe propriile GPU-uri.
GLM-4.6V se concentrează pe raționament multimodal de înaltă calitate, cu context lung și apeluri native de unelte/funcții, în timp ce GLM-4.6V-Flash este o variantă 9B ajustată pentru implementări cu latență mai mică și amprentă mai mică; noul nostru vLLM Recipe livrează configurații gata de rulat, ghidaj multi-GPU și setări implicite orientate spre producție.
Dacă construiești servicii de inferență și vrei GLM-4.6V în stack, începe de aici:
Seria GLM-4.6V a sosit🚀
- GLM-4.6V (106B): model vizual-limbaj de referință cu context 128K
- GLM-4.6V-Flash (9B): versiune ultra-rapidă, ușoară pentru sarcini locale și cu latență redusă
Prima Apelare Funcțională nativă din familia modelelor de viziune GLM
Greutăţi:
Încearcă acum GLM-4.6V:
API:
Blog tehnologic:
Prețuri API (la fiecare 1M tokens):
- GLM-4.6V: 0.6 $ intrare / 0.9 $ ieșire
- GLM-4.6V-Flash: Gratuit