Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
🚀16k TPS з vLLM на B200! Дякую, що поділилися цим успіхом; Це надихає нашу спільноту розширювати межі.

Maziyar PANAHI8 січ., 01:31
16 тисяч жетонів за секунду! 🤯
Я НІКОЛИ в житті не бачив стільки жетонів!!
> nvidia B200 від Prime
> Trinity Mini від Арсі (26B, Moe)
> обслуговується VLLM (0.13) з 8-тензорним паралелізмом
> конвеєр генерації медичних наборів даних SYNTH
> ~350 вимог/с
> ~16 тис. tps!!
ЧОРТ!

11
Вітаємо @Alibaba_Qwen з виходом Qwen-Image-2512! 🎉
Ми раді повідомити про підтримку Day-0 у vLLM-Omni. Тепер ви можете одразу надати цю модель відкритого коду SOTA з нашою оптимізованою конвеєрною архітектурою.
Читати далі:
👇 Дивіться його нижче:



Qwen31 груд. 2025 р.
🎁 A New Year gift from Qwen — Qwen-Image-2512 is here.
🚀 Our December upgrade to Qwen-Image, just in time for the New Year.
✨ What’s new:
• More realistic humans — dramatically reduced “AI look,” richer facial details
• Finer natural textures — sharper landscapes, water, fur, and materials
• Stronger text rendering — better layout, higher accuracy in text–image composition
🏆 Tested in 10,000+ blind rounds on AI Arena, Qwen-Image-2512 ranks as the strongest open-source image model, while staying competitive with closed-source systems.
👉 Try it now in Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Hugging Face Demo:
📦 ModelScope Demo:
✨API:
🎆 Start the New Year with better images.
193
Масштабування MoE-виведення часто пов'язане з комунікацією + обмеженням KV-кешу: як тільки ви просуваєте експертний паралелізм, декодування може стати захопленим колективами та дисбалансом, а заповільнення може загальмувати цілу групу EP.
Нові результати спільного бенчмарку для vLLM wide-EP на багатовузловому H200 (Coreweave, Infiniband + ConnectX-7):
- Стійке ~2,2 тис. токенів/с на H200 GPU (зростання порівняно з раніше ~1,5 тис. токенів/с за GPU)
У дописі ми ділимося ключовими елементами, які це забезпечують:
- Wide-EP ('--enable-expert-parallel') для ефективності MoE у стилі DeepSeek + MLA KV
- DeepEP all-to-all, двопакетне перекриття (DBO) та експертне паралельне балансування навантаження (EPLB)
- Шляхи розгортання та розгортання презаповнення/декодування через llm-d, NVIDIA Dynamo та Ray Serve LLM
368
Найкращі
Рейтинг
Вибране
