Os co-fundadores da @flappyairplanes chamam ao atual paradigma de RL para treinamento de modelos "lixo ambiental." Eles explicam: "Os paradigmas de reforço de hoje são chocantemente ineficientes. Você não realmente obtém muita generalização entre tarefas, você ensina um modelo através de um tipo de aprendizado e depois ensina o próximo. É meio que como um jogo de martelar topos. Nós olhamos para isso e pensamos que é meio louco. O próximo paradigma de IA não será lixo ambiental." "A inteligência ao nível humano não é o teto, é apenas o chão do que é possível. Se você pode treinar modelos com muito menos dados e possivelmente mais computação de maneiras muito diferentes, o que vai acontecer? Na verdade, não sabemos. Mas eu realmente acho que eles serão diferentes e estranhos e terão capacidades interessantes que encontraremos maneiras realmente valiosas de usar."