PPO Slop може закінчитися за секунди (ймовірно), що має великі наслідки для постійного навчання. Навіть сьогодні це надлюдське. Тобто, дуже дурна штука може працювати Можливо, політика бога — це просто «PPOslop ramework з достатньою кількістю CUDA-хаків, щоб завершити її за секунди».