來自 deepseek v3.2 的非常有趣的表格,該表格比較了不同基準上的輸出令牌數量,dsv3.2 特別版本的思考能力遠超其他模型,但由於他們使用稀疏注意力,推理成本仍然會保持在合理範圍內嗎?