🚀 vLLM acaba de atingir 70K estrelas no GitHub! 🎉 O motor tem evoluído rapidamente desde o último marco. Temos trabalhado arduamente no serviço em larga escala — suporte multi-nó de nível de produção na NVIDIA Blackwell com WideEP e paralelismo especializado, tornando prático servir os maiores modelos em escala. Mais modelos, mais hardware, agendamento assíncrono para maior throughput, streaming em tempo real para fala e áudio, e uma história multimodal crescente em texto, visão, vídeo e voz. Um enorme agradecimento aos nossos patrocinadores, aos nossos mais de 2.100 colaboradores, amigos da @PyTorch, @huggingface Transformers, e os laboratórios de modelos com os quais trabalhamos de perto para trazer suporte desde o dia 0 — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI, e parceiros @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta, e muitos mais que não conseguimos listar aqui — todos ajudando a levar o vLLM a mais plataformas e mais pessoas. Vocês fazem deste ecossistema o que ele é. 💛💙 Além disso, durante este tempo, a @inferact foi fundada pelos criadores e mantenedores principais do vLLM, dedicados a fazer crescer o vLLM e tornar a inferência mais barata e rápida. Rumo ao próximo capítulo — juntos. Serviço de LLM fácil, rápido e barato para todos. 🌍