تم اكتشاف ثغرتين من أصل ثلاث ثغرات عالية الخطورة على EVMBench بواسطة AuditAgent. قبل أن تبدأ أي مراجعة يدوية. EVMBench هو معيار معياري لاكتشاف ثغرات الذكاء الاصطناعي، تم بناؤه بواسطة @OpenAI. قمنا بتشغيل جميع المستودعات الأربعين. وكيل التدقيق: 80/120 (67٪). أفضل موديل أساسي: 56/120 (47٪). لم يتم تخطي أي مستودعات، شغل بالترتيب. الاستدعاء هو بعد واحد. نقوم بالتقييم بناء على كل من الاستدعاء والدقة، وقد فتحنا المصدر منهجية التقييم الخاصة بنا. التحليل الكامل التالي.