PPO slop se poate termina în câteva secunde (probabil), ceea ce are implicații mari pentru învățarea continuă. Chiar și astăzi, este supraomenesc. Adică, chestia foarte stupidă poate funcționa Poate că politica divină este de fapt doar "PPO slop ramework cu suficiente hack-uri CUDA încât să se termine în câteva secunde"