EVMBench'teki üç yüksek şiddetli güvenlik açığından ikisi AuditAgent tarafından tespit edildi. Manuel inceleme başlamadan önce. EVMBench, @OpenAI tarafından geliştirilen yapay zeka güvenlik açığı tespiti için standartlaştırılmış bir kıyastır. Tüm 40 depoyu çalıştırdık. AuditAgent: %80/120 (%67). En iyi baz model: %56/120 (%47). Hiçbir depo atlanmadı, sırayla çalıştır. Hafıza tek boyutludur. Hem geri çağırma hem de hassasiyetle karşılaştırıyoruz ve değerlendirme metodolojimizi açık kaynaklı hale getirdik. Sırada tam analiz var.