os nomes dos benchmarks devem incluir o prompt completo, o código de avaliação e o conjunto de dados logo ali no nome. cada nome de benchmark deve ter 50K tokens de comprimento