Przeprowadziliśmy naszą najnowszą ewaluację zaawansowanego rozumowania Box AI na Opus 4.5 z średnim i wysokim wysiłkiem i zauważyliśmy wzrost o 20 punktów procentowych w porównaniu do Opus 4.1. To szalone, że Opus 4.1 pojawił się zaledwie 3 miesiące temu. Ta ewaluacja zbliża się do przybliżenia tego, co robi pracownik wiedzy jako odrębne zadanie z ich dokumentami przedsiębiorstwa. Może to być analityk finansowy, który analizuje firmę, lub konsultant prowadzący badania dla klienta. Ewaluacja ocenia model na podstawie tego, jak odpowiada na złożony biznesowy prompt w różnych kryteriach. Jesteśmy wciąż na wczesnym etapie tej ewaluacji i będziemy ją rozszerzać na szerszy zakres branż i przypadków użycia. Jasne jest, że te najnowsze modele rozumowania będą coraz lepsze w ekonomicznie użytecznej pracy w każdej aktualizacji. To zaczęło się początkowo od kodowania, ale zobaczymy podobne ulepszenia w opiece zdrowotnej, prawie, usługach finansowych, produkcji i wielu innych dziedzinach.