10年前:強化學習(RL)提示工程師[1](第5.3節)。自適應思維鏈:一個RL神經網絡學會查詢其「世界模型」網絡以進行抽象推理和決策。超越1990年的神經世界模型[2],實現毫秒級的計劃,以及1991年的自適應神經子目標生成器[3,4],用於分層計劃。 [1] J. Schmidhuber (JS, 2015)。學習思考:用於RL控制器和循環神經世界模型新組合的算法信息理論。ArXiv 1210.0118 [2] JS (1990)。使世界可微分:在非穩定環境中使用完全循環自我監督神經網絡進行動態強化學習和計劃。TR FKI-126-90,TUM。(本報告還介紹了通過生成對抗網絡引入的人工好奇心和內在動機。) [3] JS (1991)。學習生成行動序列的子目標。Proc. ICANN'91,第967-972頁。 [4] JS & R. Wahnsiedler (1992)。使用神經子目標生成器規劃簡單軌跡。Proc. SAB'92,第196-202頁,MIT Press.