Zwei von drei hochgradigen Schwachstellen auf EVMBench, die von AuditAgent erkannt wurden. Bevor eine manuelle Überprüfung beginnen würde. EVMBench ist ein standardisierter Benchmark für die Erkennung von KI-Schwachstellen, entwickelt von @OpenAI. Wir haben alle 40 Repos durchlaufen. AuditAgent: 80/120 (67%). Bestes Basismodell: 56/120 (47%). Keine Repos übersprungen, in der Reihenfolge ausgeführt. Recall ist eine Dimension. Wir bewerten sowohl Recall als auch Präzision, und wir haben unsere Evaluierungsmethodik Open Source gemacht. Vollständige Analyse folgt.