Claude Opus 4.5 вийшов сьогодні. Він передовий у програмуванні, використанні агентів і комп'ютерів, а також значно кращий у повсякденних завданнях, таких як створення таблиць і слайдів. Ось що ми бачимо:
Постійний зворотний зв'язок від внутрішніх тестувальників полягає в тому, що він просто «розуміє». Він опрацьовує неоднозначність, аргументи про компроміси без підтримки. Завдання, які були майже неможливими для Sonnet 4.5, тепер доступні.
Наприклад, ми проводимо кандидатам з інженерії продуктивності відомий своєю складністю домашнього іспиту. У межах двогодинного ліміту часу Opus 4.5 отримав вищий бал, ніж будь-який людський кандидат.
Це також значно ефективніше. У SWE-bench Verified із середніми зусиллями Opus 4.5 перевершує Sonnet 4.5, використовуючи на 76% менше виводних токенів. Новий параметр зусиль дозволяє компромінювати інтелект заради вартості та затримки з одним циферблатом.
295,35K