PPO slop kan in seconden eindigen (waarschijnlijk), wat grote implicaties heeft voor continu leren. Zelfs vandaag de dag is het superieur aan mensen. Dit betekent dat de zeer domme dingen kunnen werken Misschien is het god beleid echt gewoon "PPOslop raamwerk met genoeg CUDA hacks om het in seconden te laten eindigen"