PPO-slop kan bli klar på sekunder (troligen), vilket har stora konsekvenser för kontinuerligt lärande. Än idag är det övermänskligt. Det betyder att den väldigt dumma grejen kan fungera Kanske är gudapolicyn egentligen bara "PPOslop ramwork med tillräckligt många CUDA-hacks för att få det klart på några sekunder"