Benchmark-Namen sollten das vollständige Prompt, den Evaluierungscode und den Datensatz direkt im Namen enthalten. Jeder Benchmark-Name sollte 50K Tokens lang sein.