un problema fundamental del RL-ing para la corrección en la generación de códigos parece ser que los modelos aprenden a escribir código que pueda manejar cualquier caso límite Los grandes ingenieros saben que los errores extraños son algo muy importante. indican una falta fundamental de comprensión. Los modelos actuales no piensan así