un problème fondamental de l'apprentissage par renforcement pour la correction dans la génération de code semble être que les modèles apprennent à écrire du code capable de gérer n'importe quel cas particulier les grands ingénieurs savent que de petites erreurs étranges sont un gros problème. elles indiquent un manque fondamental de compréhension. les modèles actuels ne pensent pas de cette manière