AuditAgent detekoval dvě ze tří vysoce závažných zranitelností na EVMBench. Než začne jakákoli manuální kontrola. EVMBench je standardizovaný benchmark pro detekci zranitelností AI, vytvořený společností @OpenAI. Provedli jsme všech 40 repozitářů. AuditAgent: 80/120 (67 %). Nejlepší základní model: 56/120 (47 %). Žádné repozitáře nejsou přeskočeny, spouštějte v pořadí. Připomenutí je jeden rozměr. Hodnotíme jak podle recallu, tak přesnosti a naši metodologii hodnocení jsme zpřístupnili jako open source. Následuje kompletní analýza.