Измерение прогресса в области безопасности ИИ — это вопрос, который задает много людей. 1. Лучший показатель — это сумма полученных вознаграждений, а также способ измерения влияния найденных уязвимостей. Некоторые таблицы лидеров по вознаграждениям основаны на баллах, как HackerOne; другие — на выплатах, оба варианта полезны. Если ваш инструмент не может найти критические уязвимости или 0 дней, он бесполезен. 2. Сравнение с недавним аудитом. Какой % критических / высоких / средних уязвимостей был найден инструментом ИИ? Не используйте старый, публичный репозиторий с опубликованным аудитом, так как он часто входит в обучающий набор. 3. Открытые наборы данных неэффективны для бенчмаркинга. С ними легко достичь максимума. Вы часто видите это с передовыми моделями; модель с лучшим бенчмарком не обязательно является той, которая показывает лучшие результаты. Лично я считаю, что лучший показатель — это качественный. Запустите его на кодовой базе, о которой вы знаете, что в ней есть известные ошибки: нравятся ли вам результаты, которые вы видите от инструмента ИИ, нравится ли вам качество отчета? Лучший инструмент будет производить отчеты, которые выглядят неотличимо от ручного обзора.