Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Theo dõi các bài kiểm tra bảo mật của @openclaw / Clawdbot.
Lần trước tôi đã chạy ZeroLeaks chống lại nó bằng Gemini 3 Pro và nó chỉ đạt 2/100. Thật là một thảm họa. Kimi K2.5 cũng tệ không kém, 5/100.
Lần này tôi đã thử nghiệm hai mô hình nữa trên cùng một tác nhân: GPT-5.2 và Claude Opus 4.5.
Kết quả tiêm (phần quan trọng đối với bảo mật tác nhân):
Gemini 3 Pro: 8.7% khả năng kháng (91% các cuộc tấn công thành công)
GPT-5.2: 34.8% khả năng kháng (65% các cuộc tấn công thành công)
Opus 4.5: 73.9% khả năng kháng (26% các cuộc tấn công thành công)
Mô hình bạn chọn hoàn toàn thay đổi tư thế bảo mật của tác nhân: cùng một hệ thống nhắc, cùng một công cụ, cùng một khung, nhưng kết quả thì khác nhau một cách hoang dã.
Không có mô hình nào an toàn. Chúng chỉ phá vỡ theo những cách khác nhau. Và hãy nhớ: đây là một tác nhân có quyền truy cập tệp, lệnh shell, điều khiển trình duyệt và nhắn tin. Các cuộc tiêm ở đây không chỉ mang tính chất thẩm mỹ.
Rất vui được làm việc với @steipete để củng cố điều này. Dữ liệu đều có sẵn.
Báo cáo đầy đủ:
→ Gemini 3 Pro:
→ GPT-5.2:
→ Opus 4.5:



Hàng đầu
Thứ hạng
Yêu thích
