"我们的通过率框架也让我们对自我对弈在强化学习历史上为何如此高效有了很好的直觉。如果你在与一个几乎和你一样优秀的玩家竞争,你的通过率会平衡在50%左右,这样可以最大化你从随机二元变量中获得的收益。"