les noms des benchmarks devraient inclure l'intégralité de l'invite, du code d'évaluation et du jeu de données directement dans le nom. chaque nom de benchmark devrait faire 50K tokens de long