"Nasz system oceny skuteczności również daje nam dobre intuicje na temat tego, dlaczego samodzielna gra była tak produktywna w historii RL. Jeśli rywalizujesz z graczem, który jest prawie tak dobry jak ty, balansujesz wokół 50% wskaźnika skuteczności, co maksymalizuje korzyści, które uzyskujesz z losowej zmiennej binarnej."