Două din cele trei vulnerabilități de severitate ridicată pe EVMBench detectate de AuditAgent. Înainte să înceapă orice revizuire manuală. EVMBench este un benchmark standardizat pentru detectarea vulnerabilităților AI, creat de @OpenAI. Am rulat toate cele 40 de repoziții. AuditAgent: 80/120 (67%). Cel mai bun model de bază: 56/120 (47%). Niciun depozit sărit, rulează în ordine. Reamintirea este o dimensiune. Evaluăm atât în funcție de reamintire, cât și de precizie, și am deschis sursa metodologiei noastre de evaluare. Urmează o analiză completă.