Mierzenie postępów w zakresie bezpieczeństwa AI to pytanie, które zadaje sobie wiele osób. 1. Najlepszym wskaźnikiem jest kwota zdobytej nagrody, wraz z jakimś sposobem na zmierzenie wpływu błędów. Niektóre rankingi nagród są oparte na punktach, jak HackerOne; inne są oparte na wypłatach, obie są przydatne. Jeśli twoje narzędzie nie potrafi znaleźć krytycznych błędów na żywo lub 0 dni, jest bezużyteczne. 2. Porównanie obok siebie z niedawnym audytem. Jaki % krytycznych / wysokich / średnich błędów został znaleziony przez narzędzie AI? Nie używaj starego, publicznego repozytorium z opublikowanym audytem, ponieważ często znajduje się ono w zestawie treningowym. 3. Otwarte zbiory danych nie są skuteczne do benchmarkingu. Łatwo jest osiągnąć maksymalne wyniki z ich pomocą. Widać to często w modelach frontier; model z najlepszym benchmarkiem niekoniecznie jest tym, który radzi sobie najlepiej. Osobiście uważam, że najlepszym wskaźnikiem jest jakość. Uruchom go na bazie kodu, o której wiesz, że ma znane błędy: czy podobają ci się wyniki, które widzisz z narzędzia AI, czy podoba ci się jakość opisu? Najlepsze narzędzie wygeneruje opisy, które będą wyglądały na nieodróżnialne od przeglądu ręcznego.