Sto assumendo ingegneri di ricerca con un focus su RL e infrastruttura di addestramento distribuito Stiamo scalando RL su un modello da 1t parametri I miei dm sono aperti