أجرينا أحدث تقييم للمنطق المتقدم الذكاء الاصطناعي في Box على Opus 4.5 بجهد متوسط وعالي وشهدنا زيادة بمقدار 20 نقطة مئوية مقارنة ب Opus 4.1. ما هو غريب أن نفكر فيه هو أن أوبوس 4.1 صدر قبل 3 أشهر فقط. يقترب هذا التقييم من تقريب ما يقوم به عامل المعرفة كمهمة منفصلة من خلال وثائق مؤسسته. قد يكون محللا ماليا يحلل شركة أو مستشارا يقوم بالبحث لعميل. يقوم التقييم بتقييم النموذج من خلال كيفية إجابته على سؤال تجاري معقد عبر مجموعة من المعايير. ما زلنا في بداية هذا التقييم وسنوسعه ليشمل مجموعة أوسع من الصناعات وحالات الاستخدام. ما هو واضح أن هذه النماذج الحديثة للمنطق ستستمر في التحسن أكثر فأكثر في الأعمال ذات الفائدة الاقتصادية مع كل تحديث. بدأ هذا في البداية بالبرمجة، لكننا سنشهد تحسينات مماثلة في الرعاية الصحية، والقانون، والخدمات المالية، والتصنيع، والعديد من المجالات الأخرى.