i nomi dei benchmark dovrebbero includere il prompt completo, il codice di valutazione e il dataset direttamente nel nome. ogni nome di benchmark dovrebbe essere lungo 50K token