النماذج الصغيرة قد تكون صحيحة لأسباب خاطئة تماما. مقاييس الدقة تخبرك أن النموذج وجد الإجابة بشكل صحيح. لا يخبرونك إذا كان المنطق صحيحا. بالنسبة للوكلاء المستقلين، هذا التمييز أمر بالغ الأهمية. تكشف هذه الدراسة الجديدة عن أزمة موثوقية خفية: 50-69٪ من الإجابات الصحيحة من نماذج 7-9B معلمة تحتوي على تفكير معيب جوهريا. يسمي الباحثون هذا ظاهرة "الأسباب الصواب للخاطئ". فكر في حساب مالي. يجيب النموذج بشكل صحيح على "12" لسؤال "ما هو 15٪ من 80؟" لكن منطقها يظهر أنه مضروب في 0.2 بدلا من 0.15. النتيجة صحيحة. المنطق مكسور. في النشر، تتفاقم هذه الإخفاقات الخفية بشكل كارثي. حللت الدراسة 10,734 أثرا استدلاليا عبر Llama-3-8B، Mistral-7B، وQwen-2.5-7B في الرياضيات، وضمان الجودة متعدد القفزات، ومهام الحس السليم. يقدمون مقياس نزاهة الاستدلال (RIS)، وهو مقياس قائم على العمليات يقيم كل خطوة وليس فقط المخرجات النهائية. يحسن RAG باستمرار سلامة الاستدلال مع أحجام التأثيرات المتوسطة إلى الكبيرة (كوهين d = 0.23-0.93). يعمل من خلال توفير هيكل خارجي يبني الحسابات على الأدلة المسترجعة، مما يقلل أخطاء الحساب بنسبة 7.6٪. لكن إليك الاكتشاف المفاجئ: النقد الذاتي والتحقق من النفس يثيران ضررا نشطا في الأداء (d = -0.14 إلى -0.33). يسمي الباحثون هذا "الانعكاس الزائف". النماذج الصغيرة تفتقر إلى القدرة المعرفية الميتا-معرفية الحقيقية. عندما يطلب منهم نقد أسبابهم، لا يتأملون فعليا. ينتجون نصا يبدو كأنه انعكاس بينما يخترعون مبررات تبدو معقولة لكنها غير صحيحة. لتمكين النشر، تم تصريف قدرات التحقق في مصنف عصبي خفيف الوزن، محققين 0.86 F1 مع تسريع 100 ضعف مقارنة بقضاة نماذج اللغة الكبيرة. وهذا يجعل تقييم الثقة في الوقت الفعلي عمليا. الدرس هنا هو أن الدقة وحدها غير كافية بشكل خطير لنشر وكلاء نماذج صغيرة. يجب أن يصبح التحقق القائم على العمليات طبقة أمان قياسية. الورقة: تعلم كيفية بناء وكلاء الذكاء الاصطناعي الفعالين في أكاديميتنا: