I moderni sistemi di raccomandazione sono trattati come un problema di apprendimento per rinforzo, con una somma di ricompense future scontate, o come transazioni strettamente a passo singolo? Molti prodotti effettuano un'analisi significativa dei dati offline sulle azioni intraprese per informare i cambiamenti, ma sembra che non si apprezzi quanto sia più potente apportare modifiche alle politiche su un insieme vivo, massicciamente parallelo di ambienti/utenti indipendenti. L'RL offline è fondamentalmente più difficile dell'RL online: devi guardarti dal bootstrap in una fantasia ottimistica non testata dalla realtà.
83,7K