"我們的通過率框架也讓我們對為什麼自我對弈在強化學習的歷史中如此有效有了良好的直覺。如果你正在與一位幾乎和你一樣出色的玩家競爭,你的通過率將會平衡在50%左右,這樣可以最大化你從隨機二元變量中獲得的收益。"