Ridículo. ¿Vas a evaluar el rendimiento de un agente de IA por cuántas llamadas a herramientas hizo?