テンセントがWeDLM-8B-Instructをリリース 数学推論タスクにおいて×vLLM最適化されたQwen3-8Bよりも3〜6速く動作する拡散言語モデル。 -3-6×vLLM最適化されたQwen3-8Bよりも数学推論タスクで高速化 - ほとんどのベンチマークで基本のQwen3-8B-Instructを上回るパフォーマンス - ネイティブKVキャッシュ互換(FlashAttention、PagedAttention、CUDA Graphs)