PPO slop может завершиться за секунды (возможно), что имеет большие последствия для непрерывного обучения. Даже сегодня это суперчеловеческий уровень. То есть, самая глупая вещь может работать Может быть, божественная политика на самом деле просто "PPOslop фреймворк с достаточным количеством CUDA хака, чтобы завершиться за секунды"