Dwie na trzy wysokosekwencyjne luki w zabezpieczeniach na EVMBench wykryte przez AuditAgent. Zanim jakakolwiek ręczna analiza się rozpocznie. EVMBench to ustandaryzowany benchmark do wykrywania luk w zabezpieczeniach AI, stworzony przez @OpenAI. Przeanalizowaliśmy wszystkie 40 repozytoriów. AuditAgent: 80/120 (67%). Najlepszy model bazowy: 56/120 (47%). Żadne repozytoria nie zostały pominięte, uruchomione w kolejności. Przypomnienie to jeden wymiar. Oceniamy zarówno pod kątem przypomnienia, jak i precyzji, a naszą metodologię oceny udostępniliśmy jako open-source. Pełna analiza wkrótce.