16 000 tokens per sekund! 🤯
Jag har ALDRIG sett så här många tokens i mitt liv!!
> Nvidia B200 från Prime
> Trinity Mini från Arcee (26B, MOE)
> betjänas av VLLM (0,13) med 8 tensorer parallellism
> pipeline för generering av medicinska SYNTH-dataset
> ~350 krav/s
> ~16 000 tps!!
FAN!
Grattis till @Alibaba_Qwen med lanseringen av Qwen-Image-2512! 🎉
Vi är glada att kunna tillkännage Day-0-stöd i vLLM-Omni. Du kan nu omedelbart leverera denna SOTA open source-bildmodell med vår optimerade pipeline-arkitektur.
Läs mer:
👇 Se den löpa nedan:
🎁 En nyårspresent från Qwen — Qwen-Image-2512 finns här.
🚀 Vår decemberuppgradering till Qwen-Image, precis lagom till det nya året.
✨ Vad är det senaste:
• Mer realistiska människor — dramatiskt minskad "AI-look", rikare ansiktsdetaljer
• Finare naturliga texturer — skarpare landskap, vatten, päls och material
• Starkare textrendering — bättre layout, högre noggrannhet i text–bild-komposition
🏆 Testat i 10 000+ blinda omgångar på AI Arena rankas Qwen-Image-2512 som den starkaste öppna bildmodellen, samtidigt som den förblir konkurrenskraftig med stängda system.
👉 Prova nu i Qwen Chat:
🤗 Kramande ansikte:
📦 ModelScope:
💻 GitHub:
📝 Blogg:
🤗 Demo av kramansikte:
📦 ModelScope-demo:
✨API:
🎆 Börja det nya året med bättre bilder.
Skalning av MoE-inferens är ofta kommunikations- + KV-cache-gräns: när du driver expertparallellism kan avkodning bli dominerad av kollektiv och obalans, och prefill-eftersläntrare kan stoppa en hel EP-grupp.
Nya community-benchmarkresultat för vLLM wide-EP på flernods-H200 (Coreweave, Infiniband + ConnectX-7):
- Uthålligt ~2,2k tokens/s per H200 GPU (upp från tidigare ~1,5k tokens/s per GPU)
I inlägget delar vi med oss av de viktigaste delarna som möjliggör detta:
- Wide-EP ('--enable-expert-parallel') för DeepSeek-stil MoE + MLA KV-effektivitet
- DeepEP all-till-alla, Dual-batch Overlap (DBO) och Expert Parallel Load Balancing (EPLB)
- Prefill/Decode disaggregeringar och distributionsvägar via LLM-d, NVIDIA Dynamo och Ray Serve LLM