um problema fundamental do RL-ing para a correção na geração de código parece ser que os modelos aprendem a escrever código que pode lidar com qualquer caso extremo grandes engenheiros sabem que pequenos erros estranhos são um grande problema. eles indicam uma falta fundamental de compreensão. os modelos atuais não pensam dessa forma