Misurare i progressi nella sicurezza dell'AI è una domanda che molte persone si pongono. 1. La migliore misura è l'importo del bounty guadagnato, insieme a un modo per misurare l'impatto dei bug. Alcune classifiche di bounty sono basate su punti come HackerOne; altre sono basate sui pagamenti, entrambe sono utili. Se il tuo strumento non riesce a trovare vulnerabilità critiche o 0 giorni in tempo reale, è inutile. 2. Confronto affiancato con un audit recente. Quale % di Critici / Alti / Medi è stata trovata dallo strumento AI? Non utilizzare un vecchio repository pubblico con un audit pubblicato perché spesso è nel set di addestramento. 3. I dataset aperti non sono efficaci per il benchmarking. È facile raggiungere il massimo con quelli. Si vede spesso con i modelli all'avanguardia; il modello con il miglior benchmark non è necessariamente quello che performa meglio. Personalmente penso che la migliore misura sia qualitativa. Eseguilo su un codice che sai avere bug noti: ti piacciono i risultati che vedi dallo strumento AI, ti piace la qualità della relazione? Il miglior strumento produrrà relazioni che sembrano indistinguibili da una revisione manuale.