10年前:强化学习(RL)提示工程师[1](第5.3节)。自适应思维链:一个RL神经网络学习查询其“世界模型”网络以进行抽象推理和决策。超越1990年的神经世界模型[2],实现毫秒级的规划,以及1991年的自适应神经子目标生成器[3,4],用于分层规划。 [1] J. Schmidhuber (JS, 2015)。学习思考:算法信息理论用于RL控制器和递归神经世界模型的新组合。ArXiv 1210.0118 [2] JS (1990)。使世界可微:关于使用完全递归自监督神经网络进行动态强化学习和在非平稳环境中规划。TR FKI-126-90,TUM。(该报告还介绍了通过生成对抗网络引入的人工好奇心和内在动机。) [3] JS (1991)。学习生成行动序列的子目标。Proc. ICANN'91,第967-972页。 [4] JS & R. Wahnsiedler (1992)。使用神经子目标生成器规划简单轨迹。Proc. SAB'92,第196-202页,MIT出版社。