L'apprentissage par renforcement est incroyable. Et il a ses propres défis très réels concernant la quantité d'informations qui revient au modèle, le calcul nécessaire pour y parvenir. Et bien sûr, avec une mise à l'échelle log-linéaire ou pire.