10 tahun yang lalu: insinyur prompt pembelajaran penguatan (RL) [1] (Bagian 5.3). Rantai pemikiran adaptif: jaring saraf RL belajar menanyakan jaring "model dunia" untuk penalaran abstrak & pengambilan keputusan. Melampaui model dunia saraf tahun 1990 [2] untuk perencanaan milidetik demi milidetik dan generator subtujuan saraf adaptif tahun 1991 [3,4] untuk perencanaan hierarkis. [1] J. Schmidhuber (JS, 2015). Tentang Belajar Berpikir: Teori Informasi Algoritmik untuk Kombinasi Baru Pengontrol RL dan Model Dunia Saraf Berulang. ArXiv 1210.0118 [2] JS (1990). Membuat dunia dapat dibedakan: Menggunakan jaringan saraf yang diawasi mandiri sepenuhnya berulang untuk pembelajaran dan perencanaan penguatan dinamis di lingkungan non-stasioner. TR FKI-126-90, TUM. (Laporan ini juga memperkenalkan keingintahuan buatan dan motivasi intrinsik melalui jaringan permusuhan generatif.) [3] JS (1991). Belajar membuat sub-tujuan untuk urutan tindakan. Proc. ICANN'91, hlm. 967-972. [4] JS & R. Wahnsiedler (1992). Merencanakan lintasan sederhana menggunakan generator subgoal saraf. Proc. SAB'92, hlm. 196-202, MIT Press.