et grunnleggende problem med RL-ing for korrekthet på codegen ser ut til å være modellene som lærer å skrive kode som kan håndtere alle kanttilfeller Dyktige ingeniører vet at rare små feil er en stor sak. De indikerer en grunnleggende mangel på forståelse. Dagens modeller tenker ikke slik