Os nomes dos benchmarks devem incluir o prompt completo, o código de avaliação e o conjunto de dados bem ali no nome. cada nome de benchmark deve ter 50K tokens