um problema fundamental do RL-ing para correção em codegen parece ser que os modelos aprendam a escrever código que possa lidar com qualquer caso limite Grandes engenheiros sabem que pequenos erros estranhos são algo muito importante. Eles indicam uma falta fundamental de compreensão. Modelos atuais não pensam assim