热议:DAgger(Ross 2011)应该是你入门强化学习时阅读的第一篇论文,而不是Sutton的书。也许还可以阅读调度采样(Bengio 2015)。在学习强化学习之前,彻底研究监督学习。