Benchmark-navn bør inkludere hele prompten og evalueringskoden og datasettet rett i navnet. hvert referansenavn bør være 50 000 tokens langt