基准测试很酷。结果更酷。 期待在 flowith canvas 上运行 deepseek-v3.2,并与其他模型进行并排比较。