荒谬。你打算通过一个AI代理调用了多少工具来评估它的表现吗?