Latterlig. Skal du evaluere ytelsen til en AI-agent ut fra hvor mange verktøyanrop den har gjort?