PPO slop může skončit během několika sekund (pravděpodobně), což má velké důsledky pro neustálé učení. I dnes je to nadlidské. To znamená, že ta velmi hloupá věc může fungovat Možná je ta božská politika vlastně jen "PPO zničit práci s dostatečným množstvím CUDA hacků, aby to bylo hotové během pár sekund".