Uczenie przez wzmocnienie jest niesamowite. I ma swoje bardzo realne wyzwania związane z tym, jak mało informacji wraca do modelu, obliczeniami potrzebnymi, aby tam dotrzeć. I oczywiście, z logarytmiczną skalowalnością lub gorszą.