10年前:強化学習(RL)プロンプトエンジニア[1](第5.3節)。適応的な思考の連鎖:強化学習ニューラルネットは抽象的な推論と意思決定のために「世界モデル」ネットにクエリを学習します。1990年のニューラルワールドモデル[2]によるミリ秒単位の計画や、1991年の適応ニューラルサブゴールジェネレーター[3,4]による階層的計画のさらなる発展。 [1] J. シュミットフーバー(JS, 2015)。『思考を学ぶことについて:強化学習コントローラとリカレントニューラル・ニューラル・ワールド・モデルの新規結合のためのアルゴリズム情報理論』。ArXiv 1210.0118 [2] JS(1990年)。世界を微分可能にする:非定常環境における動的強化学習と計画のための完全反復自己教師ありニューラルネットワークの利用について。TR FKI-126-90、TUM。(この報告書では、生成的対立ネットワークを通じて人工的好奇心と内発的動機付けも導入されました。) [3] JS(1991年)。アクションシーケンスのサブゴールを生成することを学びます。ICANN'91 論文集、967-972ページ。 [4] JS & R. ヴァンジードラー(1992年)。ニューラルサブゴールジェネレーターを用いた単純な軌道の計画。SAB'92 論文集、196-202ページ、MITプレス。