Ridículo. Você vai avaliar o desempenho de um agente de IA por quantas ferramentas ele chamam de feito?