Современные рекомендательные системы рассматриваются как задача обучения с подкреплением, с суммой дисконтированных будущих вознаграждений, или как строго одноступенчатые транзакции? Многие продукты проводят значительный анализ данных оффлайн по действиям, чтобы информировать об изменениях, но кажется, что недооценено, насколько более мощными могут быть изменения политики в реальном времени на массово параллельном наборе независимых сред/пользователей. Оффлайн обучение с подкреплением по своей сути сложнее, чем онлайн обучение с подкреплением — необходимо защищаться от перехода в оптимистичную фантазию, не проверенную реальностью.
83,75K