騰訊發布 WeDLM-8B-Instruct 一個在數學推理任務上運行速度比經過 vLLM 優化的 Qwen3-8B 快 3-6 倍的擴散語言模型。 - 在數學推理任務上比經過 vLLM 優化的 Qwen3-8B 快 3-6 倍 - 在大多數基準測試中超越基礎的 Qwen3-8B-Instruct - 原生 KV 快取兼容(FlashAttention、PagedAttention、CUDA Graphs)