Noen offentlige benchmarkingverktøy for AI-revisjonsagenter? Det ville vært supernyttig å kunne sammenligne tilgjengelige produkter Selv om jeg er sikker på at folk raskt vil lære seg å utnytte benchmarkene