Măsurarea progresului în securitatea IA este o întrebare pe care mulți oameni o pun. 1. Cea mai bună măsură este suma de recompensă câștigată, împreună cu o modalitate de a măsura impactul insectelor. Unele clasamente de recompense sunt bazate pe puncte, cum ar fi HackerOne; altele sunt bazate pe plată, ambele sunt utile. Dacă unealta ta nu găsește critici live sau 0 days, este inutilă. 2. Comparație față în față cu un audit recent. Ce procentaj de critice / mari / medii au fost găsite de instrumentul AI? Nu folosi un depozit public, vechi, cu un audit publicat, pentru că de obicei face parte din setul de antrenament. 3. Seturile de date deschise nu sunt eficiente pentru benchmarking. Este ușor să faci benchmark-uri la maxim cu acestea. Vezi asta des la modelele de frontieră; Modelul cu cel mai bun benchmark nu este neapărat cel care se descurcă cel mai bine. Personal cred că cea mai bună măsură este calitativă. Rulează-l pe o bază de cod despre care știi că are bug-uri cunoscute: îți plac rezultatele pe care le vezi de la instrumentul AI, îți place calitatea redactării? Cel mai bun instrument va produce articole care par indistincte față de o recenzie manuală.