Veröffentlichung von PPO, einer neuen Klasse von Reinforcement-Learning-Algorithmen, die bei simulierten Robotikaufgaben hervorragend abschneiden: