Ми провели нашу останню передову оцінку Box AI на Opus 4.5 із середніми та високими зусиллями і отримали приріст на 20 відсоткових пунктів порівняно з Opus 4.1. Дивно думати, що Opus 4.1 вийшов лише 3 місяці тому. Ця оцінка наближається до того, що працює працівник знань як окреме завдання у своїх корпоративних документах. Це може бути фінансовий аналітик, який аналізує компанію, або консультант, що проводить дослідження для клієнта. Оцінка оцінює модель за тим, як вона відповідає на складне бізнес-завдання за різними критеріями. Ми ще на початку з цією оцінкою і плануємо розширити її на ширший спектр галузей і сценаріїв використання. Очевидно, що ці останні моделі мислення будуть ставати все кращими в економічно вигідній роботі з кожним оновленням. Спочатку це почалося з програмування, але ми побачимо подібні покращення в охороні здоров'я, права, фінансових послугах, виробництві та багатьох інших сферах.