Benchmark-nimissä tulisi olla koko kehote sekä arviointikoodi ja datasetti nimessä. jokaisen benchmark-nimen tulisi olla 50 000 tokenia pitkä