czy są jakieś publiczne narzędzia do benchmarkingu dla agentów audytowych AI? byłoby super przydatne móc porównać dostępne produkty chociaż jestem pewien, że mf szybko nauczy się oszukiwać w benchmarkach