DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

MoE-päättelyjen skaalaaminen on usein sidottu viestintään + KV-välimuistiin: kun painat asiantuntijaparallelismia, dekoodaus voi joutua kollektiivien ja epätasapainon hallitsemaksi, ja prefill-jälkikäteen jääneet ryhmät voivat pysäyttää kokonaisen EP-ryhmän. Uusia yhteisön vertailutuloksia vLLM:n laaja-EP:lle monisolmuisella H200:lla (Coreweave, Infiniband + ConnectX-7): - Jatkuva ~2,2k tokenia/s per H200 GPU (nousua aiemmasta ~1,5k tokenista/s per GPU) Kirjoituksessa jaamme keskeiset osat, jotka mahdollistavat tämän: - Wide-EP ('-enable-expert-parallel') DeepSeek-tyyliseen MoE + MLA KV -tehokkuuteen - DeepEP all-to-all, Dual-Batch Overlap (DBO) ja Expert Parallel Load Balancing (EPLB) - Esitäyttö/dekoodauksen ja käyttöönottopolut llm-d:n, NVIDIA Dynamon ja Ray Serve LLM:n kautta

177

vLLM18.12.2025

vLLM tarjoaa vielä paremman päättelysuorituskyvyn samalla GPU-alustalla. Vain yhdessä kuukaudessa olemme tehneet yhteistyötä NVIDIA@nvidia n kanssa kasvattaaksemme Blackwellin maksimiläpäisyä GPU:ta kohden jopa 33 % – mikä merkittävästi alentaa kustannuksia per token – samalla kun mahdollistamme entistä korkeamman huippunopeuden viiveherkimmissä käyttötapauksissa, joita tukee syvä PyTorch-integraatio ja yhteistyö.

234

vLLM8.12.2025

🎉Onnittelut @Zai_org tiimille GLM-4.6V:n ja GLM-4.6V-Flashin lanseerauksesta — vLLM Recipes -ohjelman päivä -tuki on saatavilla tiimeille, jotka haluavat ajaa niitä omilla näytönohjaimillaan. GLM-4.6V keskittyy korkealaatuiseen multimodaaliseen päättelyyn, jossa on pitkä konteksti ja natiivi työkalu/funktiokutsu, kun taas GLM-4.6V-Flash on 9B-variantti, joka on säädetty matalampiin viiveisiin ja pienempiin käyttöönottoihin; uusi vLLM-reseptimme sisältää valmiit konfiguraatiot, moninäytönohjaimen ohjaukset ja tuotantoon suunnatut oletusasetukset. Jos rakennat päättelypalveluita ja haluat GLM-4.6V:n pinoasi, aloita tästä:

Z.ai8.12.2025

GLM-4.6V-sarja on täällä🚀 - GLM-4.6V (106B): lippulaivamalli 128K-kontekstilla - GLM-4.6V-Flash (9B): erittäin nopea, kevyt versio paikallisiin ja matalaviiveisiin työkuormiin Ensimmäinen natiivi funktiokutsu GLM-näkömalliperheessä Painot: Kokeile GLM-4.6V:tä nyt: OHJELMOINTIRAJAPINTA: Teknologiablogi: API-hinnoittelu (per 1 miljoonaa tokenia): - GLM-4.6V: $0.6 tulo / $0.9 ulostulo - GLM-4.6V-Flash: Vapaa

367

Johtavat

Rankkaus

Suosikit

Suomi 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Svenska Türkçe

More about OKX Wallet

Lataa Opi Tietoa meistä Työpaikat Ota meihin yhteyttä Käyttöehdot Tietosuojaselosteen X (ennen Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Explorer Suojaus

Tuki

Tukikeskus Kanavan todennus Ilmoitukset DEX-hinnasto Yhdistä OKX:ään Bitcoin-lompakko Ethereum-lompakko Solana-lompakko