Nama tolok ukur harus menyertakan prompt lengkap dan kode eval dan himpunan data di sana dalam nama. setiap nama benchmark harus memiliki panjang 50 ribu token