Å måle AI-sikkerhetsutvikling er et spørsmål mange stiller seg. 1. Det beste målet er hvor mye dusør som er tjent, sammen med en måte å måle effekten av insektene på. Noen bounty-topplister er poengbaserte, som HackerOne; Andre er utbetalingsbaserte, begge er nyttige. Hvis verktøyet ditt ikke finner levende kritiske treff eller 0 dager, er det ubrukelig. 2. Side-ved-side sammenligning med en nylig revisjon. Hvor stor prosentandel av Crits / High / Mediums ble funnet av AI-verktøyet? Ikke bruk et gammelt, offentlig repo med en publisert revisjon fordi det ofte er i treningssettet. 3. Åpne datasett er ikke effektive for benchmarking. Det er lett å benchmarke maks med disse. Det ser man ofte med frontier-modeller; Modellen med den beste benchmarken er ikke nødvendigvis den som gjør det best. Personlig mener jeg at det beste målet er kvalitativt. Kjør det på en kodebase som du vet har kjente feil: liker du funnene du ser fra AI-verktøyet, liker du kvaliteten på gjennomgangen? Det beste verktøyet vil lage artikler som ikke skiller seg fra en manuell gjennomgang.