A Tencent lança o WeDLM-8B-Instruct Um modelo de linguagem de difusão que funciona 3-6× mais rápido que o Qwen3-8B otimizado para vLLM em tarefas de raciocínio matemático. - 3-6× mais rápido que o Qwen3-8B otimizado para vLLM em tarefas de raciocínio matemático - Supera o Qwen3-8B-Instruct base na maioria dos benchmarks - Compatível com cache KV nativo (FlashAttention, PagedAttention, CUDA Graphs)