Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Поздравляем @Alibaba_Qwen с выпуском Qwen-Image-2512! 🎉
Мы рады сообщить о поддержке Day-0 в vLLM-Omni. Теперь вы можете немедленно использовать эту SOTA открытую модель изображения с нашей оптимизированной конвейерной архитектурой.
Читать далее:
👇 Смотрите, как это работает ниже:



Qwen31 дек. 2025 г.
🎁 Новый год — подарок от Qwen — Qwen-Image-2512 уже здесь.
🚀 Наше обновление декабря для Qwen-Image, как раз к Новому году.
✨ Что нового:
• Более реалистичные люди — значительно уменьшен «AI-вид», более богатые детали лица
• Более тонкие натуральные текстуры — четче пейзажи, вода, мех и материалы
• Более сильная обработка текста — лучшее оформление, высокая точность в композиции текст–изображение
🏆 Протестировано в более чем 10,000 слепых раундах на AI Arena, Qwen-Image-2512 занимает первое место среди открытых моделей изображений, оставаясь конкурентоспособным с закрытыми системами.
👉 Попробуйте сейчас в Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Блог:
🤗 Демонстрация Hugging Face:
📦 Демонстрация ModelScope:
✨API:
🎆 Начните новый год с лучшими изображениями.
26
Масштабирование вывода MoE часто ограничено коммуникацией + KV-кэшем: как только вы увеличиваете параллелизм экспертов, декодирование может стать доминирующим из-за коллективов и дисбаланса, а задержки при предварительном заполнении могут остановить целую группу EP.
Новые результаты общественного бенчмарка для vLLM wide-EP на многопроцессорной H200 (Coreweave, Infiniband + ConnectX-7):
- Устойчивые ~2.2k токенов/с на каждый GPU H200 (выросло с ~1.5k токенов/с на GPU)
В посте мы делимся ключевыми элементами, которые это обеспечивают:
- Wide-EP (`--enable-expert-parallel`) для MoE в стиле DeepSeek + эффективность MLA KV
- DeepEP all-to-all, перекрытие двойной партии (DBO) и балансировка нагрузки экспертов (EPLB)
- Диссоциация и пути развертывания Prefill/Decode через llm-d, NVIDIA Dynamo и Ray Serve LLM
204
vLLM обеспечивает еще большую производительность вывода на той же платформе GPU.
Всего за 1 месяц мы работали с NVIDIA, чтобы увеличить максимальную пропускную способность @nvidia Blackwell на GPU до 33% -- значительно снизив стоимость за токен -- при этом обеспечивая еще более высокую пиковую скорость для самых чувствительных к задержкам случаев использования, поддерживаемых глубокой интеграцией PyTorch и сотрудничеством.

238
Топ
Рейтинг
Избранное
