Dua dari tiga kerentanan tingkat keparahan tinggi di EVMBench terdeteksi oleh AuditAgent. Sebelum tinjauan manual dimulai. EVMBench adalah tolok ukur standar untuk deteksi kerentanan AI, yang dibangun oleh @OpenAI. Kami menjalankan semua 40 repositori. Agen Audit: 80/120 (67%). Model dasar terbaik: 56/120 (47%). Tidak ada repo yang dilewati, jalankan secara berurutan. Recall adalah satu dimensi. Kami mengevaluasi berdasarkan penarikan dan presisi, dan kami telah membuka metodologi evaluasi kami. Analisis lengkap selanjutnya.