DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

🚀16k TPS med vLLM på B200! Tack för att du delar med dig av denna framgång; Det inspirerar vårt samhälle att tänja på gränserna.

Maziyar PANAHI8 jan. 01:31

16 000 tokens per sekund! 🤯 Jag har ALDRIG sett så här många tokens i mitt liv!! > Nvidia B200 från Prime > Trinity Mini från Arcee (26B, MOE) > betjänas av VLLM (0,13) med 8 tensorer parallellism > pipeline för generering av medicinska SYNTH-dataset > ~350 krav/s > ~16 000 tps!! FAN!

10

vLLM31 dec. 2025

Grattis till @Alibaba_Qwen med lanseringen av Qwen-Image-2512! 🎉 Vi är glada att kunna tillkännage Day-0-stöd i vLLM-Omni. Du kan nu omedelbart leverera denna SOTA open source-bildmodell med vår optimerade pipeline-arkitektur. Läs mer: 👇 Se den löpa nedan:

Qwen31 dec. 2025

🎁 En nyårspresent från Qwen — Qwen-Image-2512 finns här. 🚀 Vår decemberuppgradering till Qwen-Image, precis lagom till det nya året. ✨ Vad är det senaste: • Mer realistiska människor — dramatiskt minskad "AI-look", rikare ansiktsdetaljer • Finare naturliga texturer — skarpare landskap, vatten, päls och material • Starkare textrendering — bättre layout, högre noggrannhet i text–bild-komposition 🏆 Testat i 10 000+ blinda omgångar på AI Arena rankas Qwen-Image-2512 som den starkaste öppna bildmodellen, samtidigt som den förblir konkurrenskraftig med stängda system. 👉 Prova nu i Qwen Chat: 🤗 Kramande ansikte: 📦 ModelScope: 💻 GitHub: 📝 Blogg: 🤗 Demo av kramansikte: 📦 ModelScope-demo: ✨API: 🎆 Börja det nya året med bättre bilder.

192

vLLM19 dec. 2025

Skalning av MoE-inferens är ofta kommunikations- + KV-cache-gräns: när du driver expertparallellism kan avkodning bli dominerad av kollektiv och obalans, och prefill-eftersläntrare kan stoppa en hel EP-grupp. Nya community-benchmarkresultat för vLLM wide-EP på flernods-H200 (Coreweave, Infiniband + ConnectX-7): - Uthålligt ~2,2k tokens/s per H200 GPU (upp från tidigare ~1,5k tokens/s per GPU) I inlägget delar vi med oss av de viktigaste delarna som möjliggör detta: - Wide-EP ('--enable-expert-parallel') för DeepSeek-stil MoE + MLA KV-effektivitet - DeepEP all-till-alla, Dual-batch Overlap (DBO) och Expert Parallel Load Balancing (EPLB) - Prefill/Decode disaggregeringar och distributionsvägar via LLM-d, NVIDIA Dynamo och Ray Serve LLM

367

Topp

Rankning

Favoriter

Svenska 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Türkçe

More about OKX Wallet

Ladda ned Learn Om oss Karriär Kontakta oss Användarvillkor Integritetsmeddelande X (tidigare Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Explorer Säkerhet

Support

Supportcenter Kanalverifiering Tillkännagivanden DEX-avgiftsstruktur Anslut med OKX Bitcoin-plånbok Ethereum-plånbok Solana-plånbok