Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Chúc mừng @Alibaba_Qwen về việc phát hành Qwen-Image-2512! 🎉
Chúng tôi rất vui mừng thông báo hỗ trợ Ngày-0 trong vLLM-Omni. Bạn có thể ngay lập tức phục vụ mô hình hình ảnh mã nguồn mở SOTA này với kiến trúc pipelined tối ưu của chúng tôi.
Đọc thêm:
👇 Xem nó hoạt động bên dưới:



Qwen31 thg 12, 2025
🎁 Một món quà năm mới từ Qwen — Qwen-Image-2512 đã có mặt.
🚀 Cập nhật tháng 12 của chúng tôi cho Qwen-Image, vừa kịp cho năm mới.
✨ Những điều mới:
• Con người thực tế hơn — giảm đáng kể “vẻ ngoài AI,” chi tiết khuôn mặt phong phú hơn
• Kết cấu tự nhiên tinh tế hơn — phong cảnh, nước, lông và vật liệu sắc nét hơn
• Kết xuất văn bản mạnh mẽ hơn — bố cục tốt hơn, độ chính xác cao hơn trong việc kết hợp văn bản và hình ảnh
🏆 Được thử nghiệm trong hơn 10,000 vòng mù trên AI Arena, Qwen-Image-2512 xếp hạng là mô hình hình ảnh mã nguồn mở mạnh nhất, trong khi vẫn cạnh tranh với các hệ thống mã nguồn đóng.
👉 Hãy thử ngay bây giờ trong Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Demo Hugging Face:
📦 Demo ModelScope:
✨API:
🎆 Bắt đầu năm mới với những hình ảnh tốt hơn.
35
Mở rộng suy diễn MoE thường bị ràng buộc bởi giao tiếp + KV-cache: một khi bạn đẩy song song chuyên gia, quá trình giải mã có thể bị chi phối bởi các tập hợp và sự mất cân bằng, và các yếu tố chậm trong việc điền trước có thể làm đình trệ toàn bộ nhóm EP.
Kết quả benchmark cộng đồng mới cho vLLM wide-EP trên H200 đa nút (Coreweave, Infiniband + ConnectX-7):
- Duy trì ~2.2k tokens/s cho mỗi GPU H200 (tăng từ ~1.5k tokens/s cho mỗi GPU trước đó)
Trong bài viết, chúng tôi chia sẻ những phần chính giúp điều này xảy ra:
- Wide-EP (`--enable-expert-parallel`) cho MoE kiểu DeepSeek + hiệu quả KV MLA
- DeepEP all-to-all, Chồng chéo Dual-batch (DBO), và Cân bằng tải song song chuyên gia (EPLB)
- Phân tách và các lộ trình triển khai Prefill/Decode thông qua llm-d, NVIDIA Dynamo, và Ray Serve LLM
214
vLLM mang lại hiệu suất suy diễn cao hơn nữa với cùng một nền tảng GPU.
Chỉ trong 1 tháng, chúng tôi đã làm việc với NVIDIA để tăng thông lượng tối đa của @nvidia Blackwell trên mỗi GPU lên tới 33% -- giảm đáng kể chi phí trên mỗi token -- đồng thời cho phép tốc độ đỉnh cao hơn nữa cho các trường hợp sử dụng nhạy cảm với độ trễ nhất, được hỗ trợ bởi sự tích hợp sâu với PyTorch và sự hợp tác.

248
Hàng đầu
Thứ hạng
Yêu thích
