Tencent vydává WeDLM-8B-Instruct Model difuzního jazyka, který běží o 3-6× rychleji než vLLM-optimalizovaný Qwen3-8B při úlohách matematického uvažování. -3-6× rychlejší než vLLM-optimalizovaný Qwen3-8B u úloh matematického uvažování - Překonává základní Qwen3-8B-Instruct na většině benchmarků - Kompatibilní s nativní KV cache (FlashAttention, PagedAttention, CUDA grafy)