een fundamenteel probleem van RL-ing voor correctheid bij codegeneratie lijkt te zijn dat modellen leren om code te schrijven die elke randgeval kan afhandelen grote ingenieurs weten dat vreemde kleine fouten een groot probleem zijn. ze duiden op een fundamenteel gebrek aan begrip. huidige modellen denken hier niet zo over