"Notre cadre de taux de réussite nous donne également de bonnes intuitions sur pourquoi le jeu autonome a été si productif dans l'histoire de l'apprentissage par renforcement. Si vous vous mesurez à un joueur qui est presque aussi bon que vous, vous vous équilibrez autour d'un taux de réussite de 50 %, ce qui maximise les éléments que vous obtenez d'une variable binaire aléatoire."