Hai trong số ba lỗ hổng nghiêm trọng trên EVMBench được phát hiện bởi AuditAgent. Trước khi bất kỳ đánh giá thủ công nào bắt đầu. EVMBench là một tiêu chuẩn chuẩn hóa cho việc phát hiện lỗ hổng AI, được xây dựng bởi @OpenAI. Chúng tôi đã chạy tất cả 40 kho. AuditAgent: 80/120 (67%). Mô hình cơ bản tốt nhất: 56/120 (47%). Không có kho nào bị bỏ qua, chạy theo thứ tự. Độ hồi tưởng là một chiều. Chúng tôi đánh giá dựa trên cả độ hồi tưởng và độ chính xác, và chúng tôi đã mã nguồn mở phương pháp đánh giá của mình. Phân tích đầy đủ tiếp theo.