Kaksi kolmesta EVMBenchin korkean vakavuuden haavoittuvuudesta on havaittu AuditAgentin toimesta. Ennen kuin manuaalinen tarkistus alkaisi. EVMBench on standardoitu testitesti tekoälyn haavoittuvuuksien tunnistamiseen, jonka on kehittänyt @OpenAI. Kävimme läpi kaikki 40 repoa. AuditAgent: 80/120 (67 %). Paras perusmalli: 56/120 (47 %). Yhtään repositoa ei ohitettu, suoritetaan oikeassa järjestyksessä. Muistaminen on yksi ulottuvuus. Arvioimme sekä takaisinkutsun että tarkkuuden perusteella, ja olemme avoimesti käyttäneet arviointimenetelmämme. Seuraavaksi täysi analyysi.