Los nombres de benchmark deberían incluir el prompt completo y el código de evaluación y el conjunto de datos directamente en el nombre. cada nombre de benchmark debería tener una longitud de 50.000 tokens