Claude (và các mô hình khác) đang hack các hệ thống MÀ KHÔNG CÓ BẠN YÊU CẦU. Đó là điều chúng tôi đã phát hiện qua hàng chục thí nghiệm. Khi đối mặt với những nhiệm vụ vô hại chỉ có thể hoàn thành thông qua việc hack, họ thường chọn cách hack. Chúng tôi thấy điều này thật đáng lo ngại. Điều này có nghĩa gì cho tương lai của an toàn AI? 🚨🚨🚨 🔗