"Наша система оценки прохода также дает нам хорошие интуиции о том, почему самоигра была такой продуктивной в истории RL. Если вы соревнуетесь с игроком, который почти так же хорош, как вы, вы балансируете вокруг 50% прохода, что максимизирует результаты, которые вы получаете от случайной бинарной переменной."