O slop do PPO pode terminar em segundos (provavelmente), o que tem grandes implicações para o aprendizado contínuo. Mesmo hoje, é super humano. Ou seja, a coisa muito estúpida pode funcionar Talvez a política divina seja realmente apenas "PPOslop ramework com hacks de CUDA suficientes para fazê-lo terminar em segundos"