Měření pokroku v bezpečnosti AI je otázka, kterou si klade mnoho lidí. 1. Nejlepším měřítkem je výše získané odměny spolu s nějakým způsobem, jak měřit dopad brouků. Některé žebříčky odměn jsou bodované, například HackerOne; jiné jsou založené na výplatě, oba jsou užitečné. Pokud váš nástroj nedokáže najít živé kritické body nebo 0 dní, je k ničemu. 2. Srovnání vedle sebe s nedávným auditem. Jaké procento kritických zásahů / vysokých / středních zásahů bylo nalezeno AI nástrojem? Nepoužívej starý veřejný repozitář s publikovaným auditem, protože je často v tréninkové sadě. 3. Otevřené datové sady nejsou efektivní pro benchmarking. S těmito je snadné benchmarkovat maximum. To vidíte často u modelů Frontier; Model s nejlepším benchmarkem nemusí být nutně ten, který dosahuje nejlepších. Osobně si myslím, že nejlepší měřítko je kvalitativní. Spusť to na kódu, o kterém víš, že má známé chyby: líbí se ti zjištění, která vidíš z AI nástroje, nebo se ti líbí kvalita popisu? Nejlepší nástroj vytvoří články, které budou vypadat nerozeznatelně pro ruční recenzi.