Finns det några offentliga benchmarkingverktyg för AI-revisionsagenter? Det vore superanvändbart för att kunna jämföra tillgängliga produkter Även om jag är säker på att MF:s snabbt lär sig att utnyttja benchmarks