現代推薦系統是被視為強化學習問題,具有折扣未來獎勵的總和,還是嚴格的單步交易? 許多產品對為通知更改而採取的行動進行重要的離線數據分析,但似乎沒有被充分認識到在一組即時的、大規模並行的獨立環境/用戶上進行策略更改是多麼強大。 從根本上說,離線 RL 比在線 RL 更難——你必須防止引導自己陷入未經現實檢驗的樂觀幻想。
83.69K