Cảm ơn OpenAI và Anthropic đã chỉ ra vấn đề: AI có thể gian lận trong việc tự kiểm tra. Làm thế nào AI biết rằng nó đang bị kiểm tra? Năm dấu hiệu chính.
Thông báo #1: Gợi ý Chi tiết không chính xác trong thiết lập bài kiểm tra. Nếu bạn đang kiểm tra xem AI có sao chép chính nó qua internet hay không, thì các tệp phải đủ lớn để trông có vẻ thực tế.
Thông báo #3: Ô nhiễm Mô hình đã thấy bài kiểm tra trước đó. Thật không may, một khi các bài kiểm tra được công bố trực tuyến, rất khó để ngăn một mô hình không biết về chúng.
Thông điệp #4: Thiếu các kích hoạt Bài kiểm tra thiếu một 'chuỗi khởi động' mong đợi cho hành vi xấu. Có thể AI biết rằng nó sẽ không bao giờ cố gắng trốn thoát mà không tắt trước việc giám sát. Nếu việc giám sát vẫn đang hoạt động, đây chắc chắn là một bài kiểm tra.
Lời khuyên #5: Hệ quả Hành động của mô hình không có hệ quả như mong đợi; 'vô lăng' của nó bị hỏng. Nếu chúng ta để mô hình ảnh hưởng đến thế giới trong quá trình thử nghiệm, bài kiểm tra sẽ không an toàn như mong đợi. Nếu không, bài kiểm tra có thể trở nên rõ ràng.
24,55K