共同創設者@flappyairplanesモデルトレーニングにおける現在の強化学習パラダイムを「環境スロップ」と呼んでいます。彼らは次のように説明しています: 「今日の増援パラダイムは驚くほど非効率的だ。タスク間での一般化はあまり得られず、ある学習方法でモデルを教え、次の学習方法で教えるだけです。モグラ叩きみたいな感じだよ。私たちはこれを見て、ちょっとおかしいと思っています。次のAIのパラダイムは環境の雑多ではありません。」 「人間の知能は天井ではなく、可能性の底線に過ぎない。もしはるかに少ないデータで、場合によっては計算量も大きく異なる方法でモデルを訓練できたら、何が起こるのでしょうか?実はわからない。でも、彼らは違っていて奇妙で、面白い機能を持っていて、それを本当に価値ある方法で活用できると思います。」