حسب القصص اليوم، طلبت من كلود جمع بيانات مطالبات التأمين الخاصة بي ووضعها في جدول. استغرق ~30 دقيقة بدون تدخل ثم قارن كلود/جيميني بمزاياي. وجدت مكانين يبدو أنني تعرضت فيهما رسوم زائدة. هذه أول مرة خارج مجال البرمجيات العلمية (SWE) أحدثت لي الوكلاء فرقا
METR
METR‏20 ديسمبر 2025
نقدر أنه في مهامنا، فإن أفق زمني ل Claude Opus 4.5 حوالي 50٪ هو حوالي 4 ساعات و49 دقيقة (فترة ثقة 95٪ من ساعة 49 دقيقة إلى 20 ساعة و25 دقيقة). بينما لا نزال نعمل على تقييمات لنماذج حديثة أخرى، هذا هو أعلى أفق زمني منشور لنا حتى الآن.
في الواقع، هو استخدام رائع للوكيل لأن كل البيانات موجودة بسهولة نسبيا في صفحة الويب. لكن من المزعج ويستغرق وقتا طويلا أن يتم تحويله إلى صيغة قابلة للاستهلاك.
والتحقق من مزاياك قوي لأن هناك الكثير من عدم التماثل في المعلومات بينك وبين مقدم الخدمة وشركة التأمين. وجود ماجستير في القانون كمدافع هو طريقة رائعة لتحقيق المساواة في الفرص.
‏‎872‏