Názvy benchmarků by měly obsahovat celý kód promptu a eval a dataset přímo v názvu. každé jméno benchmarku by mělo mít délku 50 tisíc tokenů