AIセキュリティの進展を測定することは多くの人が問う質問です。 1. 最良の指標は獲得した賞金の量と、バグの影響を測る方法です。HackerOneのようにポイント制の賞金リーダーボードもあります。他は配当制で、どちらも有用です。もしツールがライブクリティカルや0デイズを見つけられなければ、無意味です。 2. 最近の監査と並べて比較すること。AIツールがクリティカル/ハイ/ミディアムのうち、どれくらいの割合で検出されたのでしょうか?公開監査が掲載された古い公開リポジトリは使わないでください。なぜなら、それはトレーニングセットに含まれていることが多いからです。 3. オープンデータセットはベンチマークには効果的ではありません。それらで最大値をベンチマークするのは簡単です。フロンティアモデルでよく見られます。最良のベンチマークを持つモデルが必ずしも最良の結果を出すとは限りません。 個人的には質的な指標が最良の指標だと思います。既知のバグがあるコードベースで実行してください。AIツールの発見は気に入っていますか?記事の質は気に入りますか?最良のツールは、手動で見ても見分けがつかないような文章を作り出します。