عندما تبني وكلاء الذكاء الاصطناعي، لا تعامل التعليمات كأنها سلاسل إعداد. عاملها كمنطق أعمال قابل للتنفيذ. لأن هذا هو ما هم عليه حقا. مدونة @arshdilbagi ومحاضرة ستانفورد CS 224G تعرضان أحد أوضح النماذج الذهنية التي رأيتها لتقييم الماجستير الكبير (LLM). توقف عن معاملة التقييمات كاختبارات وحدة. هذا ينطبق على البرمجيات الحتمية. بالنسبة لمنتجات نماذج اللغة الكبيرة (LLM)، يخلق ذلك ثقة زائفة لأن الاستخدام الحقيقي يتغير مع مرور الوقت. مثال: طلب التأمين اجتاز 20 قضية تقييم. الفريق شحن. في الإنتاج، ظهرت فئة جديدة من الطلبات وفشلت بهدوء. لا يوجد انهيار، لا تنبيه، فقط إجابات خاطئة على نطاق واسع. الحل ليس "كتابة المزيد من حالات التقييم"، وهو ما تفعله العديد من الفرق. إنه يبني التقييمات كحلقة تغذية راجعة حية. ابدأ بمجموعة صغيرة، ثم اشحن، وراقب ما يتعطل في الإنتاج، ثم أعد إضافة تلك الإخفاقات، وأعد تشغيله عند كل طلب أو تغيير في الطراز. ما هو فشل التقييم الذي فاجأ فريقك؟ المدونة: محاضرة ستانفورد CS 224G: