Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
MoE-päättelyjen skaalaaminen on usein sidottu viestintään + KV-välimuistiin: kun painat asiantuntijaparallelismia, dekoodaus voi joutua kollektiivien ja epätasapainon hallitsemaksi, ja prefill-jälkikäteen jääneet ryhmät voivat pysäyttää kokonaisen EP-ryhmän.
Uusia yhteisön vertailutuloksia vLLM:n laaja-EP:lle monisolmuisella H200:lla (Coreweave, Infiniband + ConnectX-7):
- Jatkuva ~2,2k tokenia/s per H200 GPU (nousua aiemmasta ~1,5k tokenista/s per GPU)
Kirjoituksessa jaamme keskeiset osat, jotka mahdollistavat tämän:
- Wide-EP ('-enable-expert-parallel') DeepSeek-tyyliseen MoE + MLA KV -tehokkuuteen
- DeepEP all-to-all, Dual-Batch Overlap (DBO) ja Expert Parallel Load Balancing (EPLB)
- Esitäyttö/dekoodauksen ja käyttöönottopolut llm-d:n, NVIDIA Dynamon ja Ray Serve LLM:n kautta
170
vLLM tarjoaa vielä paremman päättelysuorituskyvyn samalla GPU-alustalla.
Vain yhdessä kuukaudessa olemme tehneet yhteistyötä NVIDIA@nvidia n kanssa kasvattaaksemme Blackwellin maksimiläpäisyä GPU:ta kohden jopa 33 % – mikä merkittävästi alentaa kustannuksia per token – samalla kun mahdollistamme entistä korkeamman huippunopeuden viiveherkimmissä käyttötapauksissa, joita tukee syvä PyTorch-integraatio ja yhteistyö.

227
🎉Onnittelut @Zai_org tiimille GLM-4.6V:n ja GLM-4.6V-Flashin lanseerauksesta — vLLM Recipes -ohjelman päivä -tuki on saatavilla tiimeille, jotka haluavat ajaa niitä omilla näytönohjaimillaan.
GLM-4.6V keskittyy korkealaatuiseen multimodaaliseen päättelyyn, jossa on pitkä konteksti ja natiivi työkalu/funktiokutsu, kun taas GLM-4.6V-Flash on 9B-variantti, joka on säädetty matalampiin viiveisiin ja pienempiin käyttöönottoihin; uusi vLLM-reseptimme sisältää valmiit konfiguraatiot, moninäytönohjaimen ohjaukset ja tuotantoon suunnatut oletusasetukset.
Jos rakennat päättelypalveluita ja haluat GLM-4.6V:n pinoasi, aloita tästä:


Z.ai8.12.2025
GLM-4.6V-sarja on täällä🚀
- GLM-4.6V (106B): lippulaivamalli 128K-kontekstilla
- GLM-4.6V-Flash (9B): erittäin nopea, kevyt versio paikallisiin ja matalaviiveisiin työkuormiin
Ensimmäinen natiivi funktiokutsu GLM-näkömalliperheessä
Painot:
Kokeile GLM-4.6V:tä nyt:
OHJELMOINTIRAJAPINTA:
Teknologiablogi:
API-hinnoittelu (per 1 miljoonaa tokenia):
- GLM-4.6V: $0.6 tulo / $0.9 ulostulo
- GLM-4.6V-Flash: Vapaa

360
Johtavat
Rankkaus
Suosikit
