Nous avons réalisé notre dernière évaluation de raisonnement avancé Box AI sur Opus 4.5 avec un effort moyen et élevé et avons constaté une augmentation de 20 points de pourcentage par rapport à Opus 4.1. Ce qui est fou à penser, c'est qu'Opus 4.1 est sorti il y a seulement 3 mois. Cette évaluation se rapproche de ce que fait un travailleur du savoir en tant que tâche discrète avec ses documents d'entreprise. Cela pourrait être un analyste financier qui analyse une entreprise ou un consultant faisant des recherches pour un client. L'évaluation évalue le modèle sur la façon dont il répond à une demande commerciale complexe selon une gamme de critères. Nous en sommes encore aux débuts de cette évaluation et nous allons l'élargir à un plus large éventail d'industries et de cas d'utilisation. Ce qui est clair, c'est que ces derniers modèles de raisonnement vont continuer à s'améliorer de plus en plus dans des travaux économiquement utiles à chaque mise à jour. Cela a commencé initialement avec le codage, mais nous allons voir des mises à niveau similaires dans les soins de santé, le droit, les services financiers, la fabrication et de nombreux autres domaines.