LLM rò rỉ: Tai nạn hay Tự nhiên? Tôi vừa mới xuất bản một bài viết trên blog về một thách thức rò rỉ dữ liệu LLM; và cách tôi đã tìm ra kênh bên, jailbreak và trích xuất bí mật mà LLM được thiết kế để bảo vệ. Chắc chắn không phải là điều tôi dự định làm hôm nay 😅
@CuriousLuke93x Chắc chắn rồi, điều đó làm cho vấn đề khó gấp đôi. Được rồi. Nhưng nếu thay vì 2 giờ cày cuốc, nó mất 4 giờ? Thậm chí, hãy làm cho nó 24 giờ! Xác suất vẫn tệ khi bạn có những tác nhân tự động.
Những gì bạn *có thể* thử làm là thêm các cầu chì điện hoạt động ngừng thực thi khi phát hiện một cuộc tấn công. Đó là những gì ChatGPT và các công ty khác đang làm (+thông báo cho cảnh sát). Nó giống như fail2ban trong thế giới SSH. Điều đó có thể hoạt động, nhưng làm thế nào để bạn xác định cái gì là thất bại? Cái gì cần bị cấm? Trong một thử thách trích xuất bí mật, chắc chắn, điều đó là ổn. Nhưng khi bạn có một đại lý với quyền truy cập vào tất cả dữ liệu cá nhân của bạn, việc rò rỉ mật khẩu có phải là xấu không? Có! Còn việc rò rỉ những gì bạn đã ăn sáng thì sao? Chà, "nó phụ thuộc". Vâng, cái "phụ thuộc" đó là vấn đề.
35