强化学习真是太棒了。它面临着一些非常真实的挑战,比如模型反馈的信息量很少,以及达到目标所需的计算能力。当然,还有对数线性扩展或更糟的情况。