O PPO slop pode terminar em segundos (provavelmente), o que tem grandes implicações para o aprendizado contínuo. Até hoje, é algo super-humano. Ou seja, a coisa muito estúpida pode funcionar Talvez a política do deus seja só "PPOslop ramework com hacks CUDA suficientes para terminar em segundos"