Lançamento do PPO, uma nova classe de algoritmos de aprendizagem por reforço que se destacam em tarefas de robótica simulada: