🚀 vLLM только что достиг 70K звезд на GitHub! 🎉 Движок продолжает быстро развиваться с последнего этапа. Мы активно работаем над крупномасштабным обслуживанием — поддержка многонодовой архитектуры на уровне производства на NVIDIA Blackwell с WideEP и экспертным параллелизмом, что делает практичным обслуживание самых больших моделей в масштабе. Больше моделей, больше оборудования, асинхронное планирование для повышения пропускной способности, потоковая передача в реальном времени для речи и аудио, а также растущая мультимодальная история в текстах, изображениях, видео и голосе. Огромное спасибо нашим спонсорам, более 2,100 участникам, друзьям из @PyTorch, @huggingface Transformers и лабораториям моделей, с которыми мы тесно сотрудничаем, чтобы обеспечить поддержку с первого дня — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI и партнерам @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta и многим другим, кого мы не можем здесь упомянуть — все они помогают принести vLLM на большее количество платформ и к большему числу людей. Вы делаете эту экосистему такой, какая она есть. 💛💙 Также в это время @inferact была основана создателями и основными поддерживающими vLLM, с целью развивать vLLM и делать выводы дешевле и быстрее. Переходим к следующей главе — вместе. Легкое, быстрое и дешевое обслуживание LLM для всех. 🌍