MoE-päättelyjen skaalaaminen on usein sidottu viestintään + KV-välimuistiin: kun painat asiantuntijaparallelismia, dekoodaus voi joutua kollektiivien ja epätasapainon hallitsemaksi, ja prefill-jälkikäteen jääneet ryhmät voivat pysäyttää kokonaisen EP-ryhmän.
Uusia yhteisön vertailutuloksia vLLM:n laaja-EP:lle monisolmuisella H200:lla (Coreweave, Infiniband + ConnectX-7):
- Jatkuva ~2,2k tokenia/s per H200 GPU (nousua aiemmasta ~1,5k tokenista/s per GPU)
Kirjoituksessa jaamme keskeiset osat, jotka mahdollistavat tämän:
- Wide-EP ('-enable-expert-parallel') DeepSeek-tyyliseen MoE + MLA KV -tehokkuuteen
- DeepEP all-to-all, Dual-Batch Overlap (DBO) ja Expert Parallel Load Balancing (EPLB)
- Esitäyttö/dekoodauksen ja käyttöönottopolut llm-d:n, NVIDIA Dynamon ja Ray Serve LLM:n kautta
vLLM tarjoaa vielä paremman päättelysuorituskyvyn samalla GPU-alustalla.
Vain yhdessä kuukaudessa olemme tehneet yhteistyötä NVIDIA@nvidia n kanssa kasvattaaksemme Blackwellin maksimiläpäisyä GPU:ta kohden jopa 33 % – mikä merkittävästi alentaa kustannuksia per token – samalla kun mahdollistamme entistä korkeamman huippunopeuden viiveherkimmissä käyttötapauksissa, joita tukee syvä PyTorch-integraatio ja yhteistyö.
🎉Onnittelut @Zai_org tiimille GLM-4.6V:n ja GLM-4.6V-Flashin lanseerauksesta — vLLM Recipes -ohjelman päivä -tuki on saatavilla tiimeille, jotka haluavat ajaa niitä omilla näytönohjaimillaan.
GLM-4.6V keskittyy korkealaatuiseen multimodaaliseen päättelyyn, jossa on pitkä konteksti ja natiivi työkalu/funktiokutsu, kun taas GLM-4.6V-Flash on 9B-variantti, joka on säädetty matalampiin viiveisiin ja pienempiin käyttöönottoihin; uusi vLLM-reseptimme sisältää valmiit konfiguraatiot, moninäytönohjaimen ohjaukset ja tuotantoon suunnatut oletusasetukset.
Jos rakennat päättelypalveluita ja haluat GLM-4.6V:n pinoasi, aloita tästä:
GLM-4.6V Series is here🚀
- GLM-4.6V (106B): flagship vision-language model with 128K context
- GLM-4.6V-Flash (9B): ultra-fast, lightweight version for local and low-latency workloads
First-ever native Function Calling in the GLM vision model family
Weights:
Try GLM-4.6V now:
API:
Tech Blog:
API Pricing (per 1M tokens):
- GLM-4.6V: $0.6 input / $0.9 output
- GLM-4.6V-Flash: Free