Medir el progreso en la seguridad de la IA es una pregunta que mucha gente se hace. 1. La mejor medida es la cantidad de recompensa obtenida, junto con alguna forma de medir el impacto de los insectos. Algunas tablas de clasificación de recompensas se basan en puntos, como HackerOne; Otros son de pago, ambos son útiles. Si tu herramienta no encuentra críticos en vivo o 0 días, es inútil. 2. Comparación lado a lado con una auditoría reciente. ¿Qué porcentaje de críticos / altos / medios se encontró con la herramienta de IA? No uses un repositorio antiguo y público con una auditoría publicada porque a menudo está en el conjunto de entrenamiento. 3. Los conjuntos de datos abiertos no son efectivos para el benchmarking. Es fácil hacer benchmarks máximos con esos. Eso se ve mucho con los modelos de frontera; El modelo con el mejor benchmark no es necesariamente el que mejor rinde. Personalmente creo que la mejor medida es la cualitativa. Ejecuta en una base de código que sepas que tiene errores conocidos: ¿te gustan los hallazgos que ves de la herramienta de IA, te gusta la calidad del texto? La mejor herramienta producirá artículos que parezcan indistinguibles de una reseña manual.