Mengukur kemajuan keamanan AI adalah pertanyaan yang ditanyakan banyak orang. 1. Ukuran terbaik adalah jumlah hadiah yang diperoleh, bersama dengan beberapa cara untuk mengukur dampak serangga. Beberapa papan peringkat hadiah berbasis poin seperti HackerOne; yang lain berbasis pembayaran, keduanya berguna. Jika alat Anda tidak dapat menemukan kritik langsung atau 0 hari, itu tidak berguna. 2. Perbandingan berdampingan dengan audit baru-baru ini. Berapa % Kritik / Tinggi / Sedang yang ditemukan oleh alat AI? Jangan gunakan repositori publik lama dengan audit yang dipublikasikan karena sering kali ada dalam set pelatihan. 3. Himpunan data terbuka tidak efektif untuk pembandingan. Sangat mudah untuk membandingkan maksimal dengan itu. Anda sering melihatnya dengan model perbatasan; Model dengan tolok ukur terbaik belum tentu yang terbaik. Saya pribadi berpikir ukuran terbaik adalah kualitatif. Jalankan pada basis kode yang Anda tahu memiliki bug yang diketahui: apakah Anda menyukai temuan yang Anda lihat dari alat AI, apakah Anda menyukai kualitas tulisannya? Alat terbaik akan menghasilkan tulisan yang terlihat tidak dapat dibedakan dengan tinjauan manual.