🚀 vLLM vient d'atteindre 70K étoiles sur GitHub ! 🎉 Le moteur a continué d'évoluer rapidement depuis le dernier jalon. Nous avons travaillé dur sur le service à grande échelle — support multi-nœuds de qualité production sur NVIDIA Blackwell avec WideEP et parallélisme expert, rendant pratique le service des plus grands modèles à grande échelle. Plus de modèles, plus de matériel, planification asynchrone pour un débit plus élevé, streaming en temps réel pour la parole et l'audio, et une histoire multimodale croissante à travers le texte, la vision, la vidéo et la voix. Un grand merci à nos sponsors, à nos plus de 2 100 contributeurs, aux amis de @PyTorch, @huggingface Transformers, et aux laboratoires de modèles avec lesquels nous travaillons en étroite collaboration pour apporter un support dès le premier jour — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI, et aux partenaires @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta, et bien d'autres que nous ne pouvons pas mentionner ici — tous aidant à amener vLLM sur plus de plateformes et à plus de personnes. Vous faites de cet écosystème ce qu'il est. 💛💙 Aussi, pendant ce temps, @inferact a été fondé par les créateurs et les principaux mainteneurs de vLLM, dédié à faire croître vLLM et à rendre l'inférence moins chère et plus rapide. Passons au prochain chapitre — ensemble. Service LLM facile, rapide et bon marché pour tous. 🌍