Tencent brengt WeDLM-8B-Instruct uit Een diffusietaalmodel dat 3-6× sneller draait dan vLLM-geoptimaliseerde Qwen3-8B bij wiskundige redeneertaken. - 3-6× sneller dan vLLM-geoptimaliseerde Qwen3-8B bij wiskundige redeneertaken - Presteert beter dan de basis Qwen3-8B-Instruct op de meeste benchmarks - Compatibel met native KV-cache (FlashAttention, PagedAttention, CUDA Graphs)