nazwy benchmarków powinny zawierać pełny prompt, kod ewaluacyjny oraz zestaw danych bezpośrednio w nazwie. każda nazwa benchmarku powinna mieć długość 50K tokenów