Claude Sonnet 5 最重要的不是基准测试。 而是当一个 Sonnet 级别的模型以一半的成本匹配 Opus 性能时会发生什么。 Opus 4.5 在 SWE-Bench 上得分 80.9%。据报道,Sonnet 5 也达到了这个分数。 具有 1M 令牌的上下文窗口。以 Sonnet 的定价。 对于每天运行 Claude Code 8 小时的 vibe 程序员来说,这不是一次升级。这是一次成本革命。 你整天使用的模型变得便宜了两倍,并且可能更快。