AuditAgentが検出したEVMBenchの3つの重大度の脆弱性のうち2つ。手動でレビューが始まる前に。 EVMBenchは、@OpenAIによって開発されたAI脆弱性検出の標準化されたベンチマークです。40リポジトリすべてを実行しました。 監査エージェント:80/120(67%)。ベストベースモデル:56/120(47%)。リポジトリをスキップせず、順番通りに実行してください。 想起は一面的なものだ。私たちはリコールと精度の両方を評価し、評価方法論をオープンソース化しています。次は詳細な分析です。