Před 10 lety: Reinforcement learning (RL) prompt engineer [1] (sekce 5.3). Adaptivní řetězec myšlení: RL neuronová síť se učí dotazovat svou síť "světového modelu" pro abstraktní uvažování a rozhodování. Jde za hranice modelu neuronového světa z roku 1990 [2] pro plánování milisekunda po milisekundě a adaptivního generátoru neuronových podcílů z roku 1991 [3,4] pro hierarchické plánování. [1] J. Schmidhuber (JS, 2015). O učení se myslet: Algoritmická teorie informace pro nové kombinace RL kontrolérů a modelů rekurentního neuronového světa. ArXiv 1210.0118 [2] JS (1990). Zpřístupnění světa diferencovatelnému: O využití plně rekurentních samo-řízených neuronových sítí pro dynamické posilované učení a plánování v nestacionárních prostředích. TR FKI-126-90, TUM. (Tato zpráva také zavedla umělou zvědavost a vnitřní motivaci prostřednictvím generativních adversariálních sítí.) [3] JS (1991). Naučit se generovat vedlejší cíle pro akční sekvence. Proc. ICANN'91, s. 967-972. [4] JS & R. Wahnsiedler (1992). Plánování jednoduchých trajektorií pomocí generátorů neuronových podcílů. Sborník SAB'92, s. 196-202, MIT Press.