Дві з трьох вразливостей високої серйозності на EVMBench виявлені AuditAgent. Перед початком будь-якого ручного огляду. EVMBench — це стандартизований бенчмарк для виявлення вразливостей ШІ, створений компанією @OpenAI. Ми запустили всі 40 репозиторій. AuditAgent: 80/120 (67%). Найкраща базова модель: 56/120 (47%). Репозиторії не пропущені, запускайте по порядку. Пам'ять — це один вимір. Ми оцінюємо як за відкликанням, так і за точністю, і ми відкрито надали нашу методологію оцінювання. Далі повний аналіз.