Bài nghiên cứu này tiết lộ lý do tại sao "AI đồng bộ" lại thất bại trong các công ty thực tế. Các doanh nghiệp nói về sự đồng bộ như thể đó là một công tắc chung mà bạn chỉ cần bật một lần và tiếp tục. Bài báo cho thấy lý do niềm tin đó bị phá vỡ ngay khi một LLM rời khỏi buổi trình diễn và bước vào một tổ chức. Các tác giả giới thiệu COMPASS, một khung làm việc được xây dựng xung quanh một thực tế đơn giản nhưng bị bỏ qua: các công ty không hoạt động theo các quy tắc an toàn chung. Họ hoạt động dựa trên các chính sách nội bộ đầy ngoại lệ, điều kiện, trường hợp đặc biệt và các động lực mâu thuẫn. Hầu hết các đánh giá LLM hoàn toàn bỏ qua điều này. Các mô hình thường được kiểm tra dựa trên đạo đức trừu tượng, quy tắc nền tảng hoặc các tiêu chuẩn công khai. Các tổ chức thực tế hoạt động dựa trên các sổ tay tuân thủ, các con đường leo thang, các ràng buộc pháp lý, các quy tắc thương hiệu và các sách hướng dẫn hoạt động không phù hợp với các quyết định có hoặc không. COMPASS kiểm tra xem một mô hình có thể hoạt động trong sự hỗn loạn đó hay không. Không phải là liệu nó có nhận ra ngôn ngữ chính sách hay không, mà là liệu nó có thể áp dụng quy tắc đúng trong tình huống đúng vì lý do đúng hay không. Khung làm việc tập trung vào các khả năng mà hầu hết các tiêu chuẩn bỏ qua. Mô hình có thể chọn chính sách đúng khi có nhiều chính sách tồn tại không? Nó có thể diễn giải các điều khoản và ngoại lệ mơ hồ thay vì mặc định từ chối một cách tổng quát không? Nó có thể giải quyết các xung đột theo cách mà tổ chức mong đợi không? Nó có thể biện minh cho các quyết định bằng cách chỉ vào văn bản chính sách thay vì nghe có vẻ tự tin không? Kết quả khó chịu nhất là: hầu hết các thất bại không phải do thiếu kiến thức. Chúng là những thất bại trong lý luận. Các mô hình thường có quyền truy cập vào chính sách đúng và vẫn áp dụng phần sai, bỏ qua các ràng buộc, tổng quát hóa các hạn chế, hoặc chọn các câu trả lời bảo thủ vi phạm các mục tiêu kinh doanh. Từ bên ngoài, những phản hồi đó trông có vẻ "an toàn". Từ bên trong, chúng là sai về mặt hoạt động. Đó là lý do tại sao các mô hình vượt qua các tiêu chuẩn công khai và vẫn thất bại trong triển khai. Chúng không được đồng bộ với ai đó cụ thể. Ý nghĩa sâu xa hơn là chiến lược. Sự đồng bộ không chuyển giao. Một mô hình được đồng bộ cho một nhà sản xuất ô tô, một ngân hàng, một bệnh viện và một cơ quan chính phủ không phải là một mô hình với các gợi ý tốt hơn. Đó là bốn vấn đề đồng bộ riêng biệt. COMPASS không tuyên bố giải quyết sự đồng bộ. Nó làm điều gì đó có giá trị hơn cho các doanh nghiệp. Nó làm cho sự không đồng bộ có thể đo lường được. ...