Claude Opus 4.5 今天發布。 在編碼、代理和計算機使用方面,它是最先進的,並且在日常任務上,如製作電子表格和幻燈片,表現得更好。 以下是我們所看到的:
內部測試者一致反饋說,它就是「懂得」。它能處理模糊性,能在不需要指導的情況下進行權衡。 對於 Sonnet 4.5 來說幾乎不可能的任務現在變得觸手可及。
例如,我們給予性能工程候選人一個聲名狼藉的困難家庭作業考試。在兩小時的時間限制內,Opus 4.5 的得分超過了任何人類候選人。
它的效率也大幅提高。在中等努力下,Opus 4.5 在 SWE-bench 驗證中超越了 Sonnet 4.5,同時使用了 76% 更少的輸出標記。 新的努力參數讓你可以用一個旋鈕在智慧與成本/延遲之間進行權衡。
295.35K