Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Вітаємо @Alibaba_Qwen з виходом Qwen-Image-2512! 🎉
Ми раді повідомити про підтримку Day-0 у vLLM-Omni. Тепер ви можете одразу надати цю модель відкритого коду SOTA з нашою оптимізованою конвеєрною архітектурою.
Читати далі:
👇 Дивіться його нижче:



Qwen31 груд. 2025 р.
🎁 Новорічний подарунок від Qwen — Qwen-Image-2512 тут.
🚀 Наше грудневе оновлення до Qwen-Image, якраз до Нового року.
✨ Що нового:
• Більш реалістичні люди — різко зменшений «AI-вигляд», багатші деталі обличчя
• Витонченіші природні текстури — гостріші пейзажі, вода, хутро та матеріали
• Краща відтворення тексту — краща верстка, вища точність композиції тексту та зображення
🏆 Протестований у 10 000+ сліпих раундах на AI Arena, Qwen-Image-2512 є найсильнішою відкритою моделлю зображень, залишаючись конкурентоспроможним із закритими системами.
👉 Спробуйте зараз у чаті Qwen:
🤗 Обіймаючи обличчя:
📦 ModelScope:
💻 GitHub:
📝 Блог:
🤗 Демо Hugging Face:
📦 Демо ModelScope:
✨API:
🎆 Починайте Новий рік із кращими зображеннями.
68
Масштабування MoE-виведення часто пов'язане з комунікацією + обмеженням KV-кешу: як тільки ви просуваєте експертний паралелізм, декодування може стати захопленим колективами та дисбалансом, а заповільнення може загальмувати цілу групу EP.
Нові результати спільного бенчмарку для vLLM wide-EP на багатовузловому H200 (Coreweave, Infiniband + ConnectX-7):
- Стійке ~2,2 тис. токенів/с на H200 GPU (зростання порівняно з раніше ~1,5 тис. токенів/с за GPU)
У дописі ми ділимося ключовими елементами, які це забезпечують:
- Wide-EP ('--enable-expert-parallel') для ефективності MoE у стилі DeepSeek + MLA KV
- DeepEP all-to-all, двопакетне перекриття (DBO) та експертне паралельне балансування навантаження (EPLB)
- Шляхи розгортання та розгортання презаповнення/декодування через llm-d, NVIDIA Dynamo та Ray Serve LLM
251
vLLM забезпечує ще більшу продуктивність інференції на тій самій GPU-платформі.
Всього за місяць ми працювали з NVIDIA, щоб збільшити максимальну пропускну здатність Blackwell @nvidia GPU до 33% — суттєво знизивши вартість токена — а також забезпечивши ще вищу пікову швидкість для найбільш затримкових випадків використання завдяки глибокій інтеграції та співпраці з PyTorch.

282
Найкращі
Рейтинг
Вибране
