Bài báo của DeepMind này vừa âm thầm tiêu diệt lời nói dối an ủi nhất trong an toàn AI. Ý tưởng rằng an toàn liên quan đến cách mà các mô hình hoạt động phần lớn thời gian nghe có vẻ hợp lý. Nó cũng sai ngay khi các hệ thống mở rộng. DeepMind chỉ ra lý do tại sao các giá trị trung bình không còn quan trọng khi triển khai đạt hàng triệu tương tác. Bài báo định hình lại an toàn AGI như một vấn đề phân phối. Điều quan trọng không phải là hành vi điển hình. Mà là đuôi. Những thất bại hiếm hoi. Các trường hợp biên. Những sự kiện có xác suất thấp mà cảm giác như có thể bỏ qua trong các bài kiểm tra nhưng trở nên không thể tránh khỏi trong thế giới thực. Các tiêu chuẩn, nhóm phản biện, và các buổi trình diễn đều lấy mẫu từ giữa. Triển khai lấy mẫu mọi thứ. Người dùng kỳ lạ, động lực kỳ quặc, vòng phản hồi thù địch, môi trường mà không ai lên kế hoạch. Khi mở rộng, những trường hợp đó không còn hiếm. Chúng là điều chắc chắn. Đây là cái nhìn không thoải mái: tiến bộ có thể làm cho các hệ thống trông an toàn hơn trong khi âm thầm làm cho chúng nguy hiểm hơn. Nếu khả năng phát triển nhanh hơn kiểm soát đuôi, các thất bại có thể nhìn thấy giảm xuống trong khi rủi ro thảm khốc tích lũy ngoài màn hình. Hai mô hình có thể trông giống hệt nhau về mặt trung bình nhưng vẫn khác nhau một cách hoang dã trong hành vi tồi tệ nhất. Các đánh giá hiện tại không thể thấy khoảng cách đó. Các khung quản trị giả định rằng họ có thể. Bạn không thể chứng nhận an toàn với các bài kiểm tra hữu hạn khi rủi ro sống trong sự thay đổi phân phối. Bạn không bao giờ đang kiểm tra hệ thống mà bạn thực sự triển khai. Bạn đang lấy mẫu một tương lai mà bạn không kiểm soát. Đó là câu chuyện thực sự. An toàn AGI không phải là một thuộc tính của mô hình. Nó là một vấn đề hệ thống. Bối cảnh triển khai, động lực, giám sát, và mức độ rủi ro đuôi mà xã hội chấp nhận đều quan trọng hơn những giá trị trung bình sạch sẽ. Bài báo này không làm bạn yên tâm. Nó loại bỏ ảo tưởng. Câu hỏi không phải là liệu mô hình thường hoạt động tốt. Mà là điều gì xảy ra khi nó không — và tần suất mà điều đó được cho phép trước khi quy mô làm cho nó không thể chấp nhận được. Bài báo: