Вимірювання прогресу в безпеці ШІ — це питання, яке ставлять багато людей. 1. Найкраща міра — це сума заробленої винагороди, а також спосіб вимірювати вплив комах. Деякі таблиці нагород базуються на очках, як у HackerOne; Інші — це виплата, обидва корисні. Якщо ваш інструмент не може знайти живі критичні або 0 днів, він марний. 2. Порівняння поруч із нещодавнім аудитом. Який відсоток критичних ударів / високих / середніх був виявлений інструментом ШІ? Не використовуйте старий публічний репозиторій із опублікованим аудитом, бо він часто є у навчальному наборі. 3. Відкриті набори даних не є ефективними для бенчмаркінгу. З ними легко бенчмаркувати максимум. Це часто видно на моделях фронтиру; Модель з найкращим бенчмарком не обов'язково є тією, що показує найкраще. Особисто я вважаю, що найкращий показник — це якісність. Запустіть його на коді, у якому, як ви знаєте, є відомі баги: чи подобаються вам результати інструменту ШІ, чи подобається якість опису? Найкращий інструмент створить статті, які виглядають невідмінно від ручного повторення.