来自 deepseek v3.2 的非常有趣的表格,比较了不同基准上的输出令牌数量,dsv3.2 特别版的思考能力远超其他模型,但由于它们使用稀疏注意力,推理成本仍然会保持在合理范围内吗?