الهندسة في Anthropic أصدرت نجاحا آخر. كتابهم الداخلي لتقييم عملاء الذكاء الاصطناعي. إليك أكثر درس غير منطقي تعلمته من ذلك: لا تختبر الخطوات التي اتخذها وكيلك. اختبر ما ينتجه فعليا. هذا يتعارض مع كل غريزة. قد تعتقد أن فحص كل خطوة يضمن الجودة. لكن الوكلاء مبدعون. يجدون حلولا لم تتوقعها. معاقبة المسارات غير المتوقعة تجعل تقييماتك هشة. ما يهم هو النتيجة النهائية. اختبر ذلك مباشرة. يقسم كتاب الاستراتيجيات ثلاثة أنواع من المصححين: - المعتمد على الشفرات: سريع وموضوعي، لكنه هش تجاه التنويعات الصحيحة. - قائم على النماذج: LLM كقاض مع معايير تقديرية. مرن، لكنه يحتاج إلى معايرة. - الإنسان: المعيار الذهبي، لكنه مكلف. استخدمه باعتدال. كما يغطي استراتيجيات التقييم لعملاء البرمجة، ووكلاء المحادثة، ووكلاء البحث، ووكلاء استخدام الحاسوب. أهم النقاط المستخلصة: - ابدأ ب 20-50 حالة اختبار من إخفاقات حقيقية - يجب أن تبدأ كل تجربة من بيئة نظيفة - تشغيل عدة تجارب لأن مخرجات النماذج تختلف - اقرأ النصوص. هكذا تكتشف أخطاء التصحيح. إذا كنت جادا بشأن الشحن مع وكلاء موثوقين. أنصح بشدة بقراءته. الرابط في التغريدة القادمة.