Claude Opus 4.5 今天发布。 它在编码、代理和计算机使用方面处于最先进水平,并且在生成电子表格和幻灯片等日常任务上有显著提升。 以下是我们看到的内容:
内部测试人员的一致反馈是,它就是 "懂得这一切。" 它能够处理模糊性,能够在没有指导的情况下进行权衡。 对于 Sonnet 4.5 来说几乎不可能完成的任务,现在变得触手可及。
例如,我们给性能工程候选人一个 notoriously difficult 的家庭作业。在 2 小时的时间限制内,Opus 4.5 的得分超过了任何人类候选人。
它的效率也显著提高。在SWE-bench上经过中等努力验证,Opus 4.5在使用76%更少的输出令牌的情况下击败了Sonnet 4.5。 新的努力参数让你可以通过一个旋钮在智能与成本/延迟之间进行权衡。
295.35K