PPO slop może zakończyć się w ciągu sekund (prawdopodobnie), co ma ogromne implikacje dla uczenia się ciągłego. Nawet dzisiaj, to jest super ludzkie. To znaczy, że bardzo głupia rzecz może działać Może boska polityka to naprawdę tylko "PPOslop ramework z wystarczającą ilością hacków CUDA, aby zakończyć to w ciągu sekund"