تكشف هذه الورقة البحثية سبب استمرار فشل "الذكاء الاصطناعي المتوافق" داخل الشركات الحقيقية. تتحدث المؤسسات عن التوافق كما لو كان مفتاحا عالميا تفتحه مرة واحدة ثم تمضي قدما. توضح الورقة سبب انكسار هذا الاعتقاد بمجرد أن يغادر نموذج اللغة الكبيرة نموذجا تجريبيا ويدخل منظمة. يقدم المؤلفون إطار عمل COMPASS، وهو إطار عمل مبني حول واقع بسيط لكنه مهمل: الشركات لا تعمل وفق قواعد سلامة عامة. تعمل هذه الوثائق على سياسات داخلية مليئة بالاستثناءات، والشرط، والحالات الجانبية، والحوافز المتضاربة. معظم تقييمات الماجستير في القانون تغفل هذا الموضوع تماما. عادة ما تختبر النماذج وفقا للأخلاقيات المجردة، أو قواعد المنصة، أو المعايير العامة. تعمل المؤسسات الحقيقية على أدلة الامتثال، ومسارات التصعيد، والقيود القانونية، وقواعد العلامة التجارية، وكتيبات التشغيل التي لا تتناسب تماما مع قرارات نعم أو لا. تختبر COMPASS ما إذا كان النموذج قادرا على العمل داخل تلك الفوضى. ليس ما إذا كانت تعترف بلغة السياسة، بل ما إذا كانت تستطيع تطبيق القاعدة الصحيحة في الوضع المناسب ولسبب صحيح. يركز الإطار على القدرات التي تتجاهلها معظم المعايير المعيارية. هل يمكن للنموذج اختيار السياسة الصحيحة عندما توجد عدة سياسات؟ هل يمكنها تفسير البنود والاستثناءات الغامضة بدلا من الاعتماد على الرفض الشامل؟ هل يمكنها حل النزاعات كما تتوقع المنظمة؟ هل يمكن أن تبرر القرارات بالإشارة إلى نص السياسات بدلا من الظهور بثقة؟ النتيجة الأكثر إزعاجا هي هذه: معظم الإخفاقات لم تكن بسبب فقدان المعرفة. كانوا إخفاقات في التفكير. غالبا ما كان لدى النماذج وصول إلى السياسة الصحيحة ومع ذلك طبقت القسم الخطأ، أو تجاهلت القيود، أو تعمم القيود بشكل مفرط، أو اختارت إجابات محافظة تنتهك أهداف الأعمال. من الخارج، تبدو تلك الردود "آمنة". من الداخل، هم مخطئون عمليا. لهذا السبب تجتاز النماذج معايير الأداء العامة ومع ذلك تفشل في النشر. هم غير مرتبطين بأي شخص معين. الدلالة الأعمق هي استراتيجية. المحاذاة لا تنتقل. النموذج المصمم لصانع سيارات، وبنك، ومستشفى، ووكالة حكومية ليس نموذجا واحدا بمحفزات أفضل. إنها أربع مشاكل محاذاة منفصلة. COMPASS لا يدعي حل مشكلة المحاذاة. إنه يفعل شيئا أكثر قيمة للمؤسسات. هذا يجعل عدم التوافق قابلا للقياس. ...