PPO-slop kan være ferdig på sekunder (sannsynligvis), noe som har store konsekvenser for kontinuerlig læring. Selv i dag er det overmenneskelig. Det vil si, den veldig dumme greia kan fungere Kanskje gudepolitikken egentlig bare er «PPOslop ramework med nok CUDA-hacks til å bli ferdig på sekunder».