Grattis till @Alibaba_Qwen med lanseringen av Qwen-Image-2512! 🎉
Vi är glada att kunna tillkännage Day-0-stöd i vLLM-Omni. Du kan nu omedelbart leverera denna SOTA open source-bildmodell med vår optimerade pipeline-arkitektur.
Läs mer:
👇 Se den löpa nedan:
🎁 En nyårspresent från Qwen — Qwen-Image-2512 finns här.
🚀 Vår decemberuppgradering till Qwen-Image, precis lagom till det nya året.
✨ Vad är det senaste:
• Mer realistiska människor — dramatiskt minskad "AI-look", rikare ansiktsdetaljer
• Finare naturliga texturer — skarpare landskap, vatten, päls och material
• Starkare textrendering — bättre layout, högre noggrannhet i text–bild-komposition
🏆 Testat i 10 000+ blinda omgångar på AI Arena rankas Qwen-Image-2512 som den starkaste öppna bildmodellen, samtidigt som den förblir konkurrenskraftig med stängda system.
👉 Prova nu i Qwen Chat:
🤗 Kramande ansikte:
📦 ModelScope:
💻 GitHub:
📝 Blogg:
🤗 Demo av kramansikte:
📦 ModelScope-demo:
✨API:
🎆 Börja det nya året med bättre bilder.
Skalning av MoE-inferens är ofta kommunikations- + KV-cache-gräns: när du driver expertparallellism kan avkodning bli dominerad av kollektiv och obalans, och prefill-eftersläntrare kan stoppa en hel EP-grupp.
Nya community-benchmarkresultat för vLLM wide-EP på flernods-H200 (Coreweave, Infiniband + ConnectX-7):
- Uthålligt ~2,2k tokens/s per H200 GPU (upp från tidigare ~1,5k tokens/s per GPU)
I inlägget delar vi med oss av de viktigaste delarna som möjliggör detta:
- Wide-EP ('--enable-expert-parallel') för DeepSeek-stil MoE + MLA KV-effektivitet
- DeepEP all-till-alla, Dual-batch Overlap (DBO) och Expert Parallel Load Balancing (EPLB)
- Prefill/Decode disaggregeringar och distributionsvägar via LLM-d, NVIDIA Dynamo och Ray Serve LLM
vLLM levererar ännu mer inferensprestanda med samma GPU-plattform.
På bara en månad har vi samarbetat med NVIDIA för att öka @nvidia Blackwells maximala genomströmning per GPU med upp till 33 % – vilket avsevärt minskar kostnaden per token – samtidigt som vi möjliggör ännu högre topphastighet för de mest latenskänsliga användningsområdena som drivs av djup PyTorch-integration och samarbete.