🚀 vLLM ha appena raggiunto 70K stelle su GitHub! 🎉 Il motore ha continuato a evolversi rapidamente da quando abbiamo raggiunto l'ultimo traguardo. Abbiamo lavorato intensamente sul servizio su larga scala — supporto multi-nodo di livello produttivo su NVIDIA Blackwell con WideEP e parallelismo esperto, rendendo pratico servire i modelli più grandi su larga scala. Più modelli, più hardware, pianificazione asincrona per un throughput maggiore, streaming in tempo reale per voce e audio, e una crescente storia multimodale attraverso testo, visione, video e voce. Un enorme grazie ai nostri sponsor, ai nostri oltre 2.100 contributori, agli amici di @PyTorch, @huggingface Transformers, e ai laboratori di modelli con cui lavoriamo a stretto contatto per portare il supporto dal giorno 0 — @deepseek_ai, @Alibaba_Qwen, @MiniMax_AI, @Kimi_Moonshot, @MistralAI, e ai partner @NVIDIAAIDev, @RedHat_AI, @AIatAMD, @AIatMeta, e molti altri che non possiamo elencare qui — tutti aiutando a portare vLLM su più piattaforme e a più persone. Voi rendete questo ecosistema ciò che è. 💛💙 Inoltre, durante questo periodo, @inferact è stata fondata dai creatori e dai manutentori principali di vLLM, dedicata a far crescere vLLM e a rendere l'inferenza più economica e veloce. Verso il prossimo capitolo — insieme. Servizio LLM facile, veloce ed economico per tutti. 🌍