tên benchmark nên bao gồm đầy đủ prompt, mã eval và tập dữ liệu ngay trong tên. mỗi tên benchmark nên dài 50K token