имена бенчмарков должны включать полный запрос, код оценки и набор данных прямо в названии. каждое имя бенчмарка должно быть длиной 50K токенов