benchmarknamen moeten de volledige prompt, eval-code en dataset daar in de naam bevatten. elke benchmarknaam moet 50K tokens lang zijn