Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Félicitations à @Alibaba_Qwen pour la sortie de Qwen-Image-2512 ! 🎉
Nous sommes ravis d'annoncer le support Day-0 dans vLLM-Omni. Vous pouvez maintenant servir ce modèle d'image open-source SOTA avec notre architecture optimisée en pipeline immédiatement.
Lisez-en plus :
👇 Voyez-le fonctionner ci-dessous :



Qwen31 déc. 2025
🎁 Un cadeau de Nouvel An de Qwen — Qwen-Image-2512 est là.
🚀 Notre mise à jour de décembre pour Qwen-Image, juste à temps pour le Nouvel An.
✨ Quoi de neuf :
• Des humains plus réalistes — « look AI » considérablement réduit, détails faciaux plus riches
• Textures naturelles plus fines — paysages, eau, fourrure et matériaux plus nets
• Rendu de texte plus puissant — meilleure mise en page, plus grande précision dans la composition texte-image
🏆 Testé dans plus de 10 000 rounds à l'aveugle sur AI Arena, Qwen-Image-2512 se classe comme le modèle d'image open-source le plus puissant, tout en restant compétitif avec les systèmes closed-source.
👉 Essayez-le maintenant dans Qwen Chat :
🤗 Hugging Face :
📦 ModelScope :
💻 GitHub :
📝 Blog :
🤗 Démo Hugging Face :
📦 Démo ModelScope :
✨API :
🎆 Commencez la nouvelle année avec de meilleures images.
37
L'inférence MoE à grande échelle est souvent limitée par la communication et le cache KV : une fois que vous poussez le parallélisme des experts, le décodage peut être dominé par les collectifs et le déséquilibre, et les retards de pré-remplissage peuvent bloquer tout un groupe EP.
De nouveaux résultats de référence de la communauté pour vLLM wide-EP sur H200 multi-nœuds (Coreweave, Infiniband + ConnectX-7) :
- Environ 2,2k tokens/s soutenus par GPU H200 (contre environ 1,5k tokens/s par GPU auparavant)
Dans le post, nous partageons les éléments clés qui permettent cela :
- Wide-EP (`--enable-expert-parallel`) pour l'efficacité MoE de style DeepSeek + MLA KV
- DeepEP all-to-all, chevauchement de double lot (DBO) et équilibrage de charge parallèle des experts (EPLB)
- Désagrégation et chemins de déploiement Pré-remplissage/Décodage via llm-d, NVIDIA Dynamo et Ray Serve LLM
216
vLLM offre encore plus de performances d'inférence avec la même plateforme GPU.
En seulement 1 mois, nous avons travaillé avec NVIDIA pour augmenter le débit maximum par GPU de @nvidia Blackwell jusqu'à 33 % -- réduisant ainsi considérablement le coût par jeton -- tout en permettant également une vitesse de pointe encore plus élevée pour les cas d'utilisation les plus sensibles à la latence, grâce à une intégration et une collaboration approfondies avec PyTorch.

250
Meilleurs
Classement
Favoris
