هذه الورقة صدمتني 🤯 الجميع في X يواصل التفاخر ب "LLM-كقاض" كما لو كان عرافا سحريا للحقيقة. لكن هذه الورقة تظهر شيئا جنونيا: معظم تقييمات نماذج اللغة الكبيرة التي رأيتها متحيزة عن قصد ليس لأن النماذج سيئة، بل لأن الحكم نفسه يسيء تمثيل النتيجة بهدوء. إليكم الجزء الغريب: إذا كان القاضي سيئا قليلا في اكتشاف الإجابات الخاطئة (مع دقة منخفضة)، فهذا يضخم الدقة. إذا كان ضعيفا قليلا في التعرف على الإجابات الصحيحة (حساسية منخفضة)، فإنه يقلل من الدقة. نفس الطراز. نفس المخرجات. لكن تحصل على حكمين مختلفين = دقيقتان مختلفتان. يعرض المؤلفون الرياضيات، ومنحنيات الخطأ، والنقطة الدقيقة التي يبدأ فيها القاضي بالكذب عليك دون قصد. لذا بنوا حلا: مقدر إضافي يعدل الدرجة المحكمة إلى الدرجة الحقيقية باستخدام بيانات المعايرة. بالإضافة إلى فترة ثقة تعكس أخيرا عدم اليقين من كل من مجموعة التقييم ومجموعة المعايرة. إليكم ما صدمني: حتى أنهم يظهرون كيفية تخصيص عينات المعايرة بكفاءة حتى لا تضيع الميزانية، وهو أمر لا يتحدث عنه أحد في تقييم LLM. ...