Yapay zeka güvenliği ilerlemesini ölçmek, birçok kişinin sorduğu bir soru. 1. En iyi ölçüt, kazanılan ödül miktarı ve böceklerin etkisini ölçmenin bir yoludur. Bazı ödül lider tabloları puan tabanlıdır, örneğin HackerOne; Diğerleri ödeme bazlı, ikisi de faydalı. Aracınız canlı kritik veya 0 gün bulamazsa işe yaramaz. 2. Son bir denetimle yan yana karşılaştırma. Yapay zeka aracı Kritik / Yüksek / Orta puanların yüzde kaçını buldu? Yayınlanmış denetimi olan eski, halka açık bir depoyu kullanmayın çünkü genellikle eğitim setinde bulunur. 3. Açık veri setleri kıyaslama için etkili değildir. Bunlarla max benchmark yapmak kolay. Bunu Frontier modellerinde sıkça görüyorsunuz; En iyi kıyasa sahip model mutlaka en iyi olanı yapmaz. Bence en iyi ölçüt nitel ölçüttür. Bilinen hataları olduğunu bildiğiniz bir kod tabanında çalıştırın: yapay zeka aracından gördüğünüz bulguları beğendiniz mi, yazının kalitesini beğendiniz mi? En iyi araç, manuel incelemeden ayırt edilemez görünen yazılar üretecektir.