Werden moderne Empfehlungssysteme wie ein Reinforcement-Learning-Problem behandelt, mit einer Summe von diskontierten zukünftigen Belohnungen, oder als strikt einstufige Transaktionen? Viele Produkte führen umfangreiche Offline-Datenanalysen zu getätigten Aktionen durch, um Änderungen zu informieren, aber es scheint nicht ausreichend gewürdigt zu werden, wie viel mächtiger es ist, politische Änderungen in einer Live-Umgebung mit massiv parallelen, unabhängigen Umgebungen/Nutzern vorzunehmen. Offline-RL ist grundsätzlich schwieriger als Online-RL – man muss sich davor hüten, in eine optimistische Fantasie zu bootstrappen, die von der Realität nicht getestet wurde.
83,73K