@flappyairplanes 的联合创始人称当前的强化学习模型训练范式为 "环境混乱"。他们解释道: "今天的强化学习范式令人震惊地低效。你在任务之间几乎没有什么泛化,你通过一种学习方式教会模型,然后再教它下一种。这有点像打地鼠。我们看着这一切,觉得这有点疯狂。下一个 AI 范式不会是环境混乱。" "人类水平的智能并不是上限,而仅仅是可能性的底线。如果你可以用更少的数据和可能更多的计算以非常不同的方式训练模型,会发生什么?我们实际上不知道。但我确实认为它们会不同且奇怪,并且会拥有我们会发现非常有价值的有趣能力。"