Vậy là chúng ta có những mô hình tác động mạnh mẽ như Opus bây giờ, nhưng chúng không thể hiện những động lực tìm kiếm quyền lực, xu hướng nói dối, và những điều tương tự. Liệu đây có phải là một đòn chí mạng cho các lập luận của những người bi quan về AI rằng những đặc điểm này sẽ (a) nhất thiết xuất hiện với khả năng cao hơn và (b) khó kiểm soát?
Tôi nhớ khi "cho phép các mô hình truy cập internet không được phép" là một ranh giới đỏ quan trọng mà nhân loại không thể vượt qua. Có vẻ như tất cả những người này đều sai, hoặc ít nhất cần phải di chuyển cột mốc khá xa.
1,22K