🚀 vLLM hat gerade 70K GitHub-Sterne erreicht! 🎉 Die Engine hat sich seit dem letzten Meilenstein schnell weiterentwickelt. Wir haben intensiv an der großflächigen Bereitstellung gearbeitet – produktionsreife Multi-Node-Unterstützung auf NVIDIA Blackwell mit WideEP und Expertenparallelität, was es praktisch macht, die größten Modelle im großen Maßstab bereitzustellen. Mehr Modelle, mehr Hardware, asynchrone Planung für höhere Durchsatzraten, Echtzeit-Streaming für Sprache und Audio sowie eine wachsende multimodale Geschichte über Text, Vision, Video und Stimme. Ein riesiges Dankeschön an unsere Sponsoren, unsere über 2.100 Mitwirkenden, die Freunde bei @PyTorch, @huggingface Transformers und die Modell-Labore, mit denen wir eng zusammenarbeiten, um die Unterstützung ab Tag 0 zu ermöglichen – @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI und Partner @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta und viele weitere, die wir hier nicht unterbringen können – alle helfen, vLLM auf mehr Plattformen und für mehr Menschen zugänglich zu machen. Ihr macht dieses Ökosystem zu dem, was es ist. 💛💙 Auch in dieser Zeit wurde @inferact von den Schöpfern und Hauptverwaltern von vLLM gegründet, um vLLM weiterzuentwickeln und die Inferenz günstiger und schneller zu machen. Auf zum nächsten Kapitel – gemeinsam. Einfache, schnelle und günstige LLM-Bereitstellung für alle. 🌍