Blir moderne anbefalingssystemer behandlet som et forsterkende læringsproblem, med en sum av diskonterte fremtidige belønninger, eller som strengt enkelttrinnstransaksjoner? Mange produkter gjør betydelig offline dataanalyse av handlinger som er iverksatt for å informere om endringer, men det virker undervurdert hvor mye mer kraftfullt det er å gjøre policyendringer på et live, massivt parallelt sett med uavhengige miljøer/brukere. Offline RL er grunnleggende vanskeligere enn online RL – du må passe deg for å starte opp i en optimistisk fantasi som ikke er testet av virkeligheten.
83,68K