masalah mendasar RL-ing untuk kebenaran pada codegen tampaknya adalah model belajar menulis kode yang dapat menangani kasus tepi apa pun Insinyur hebat tahu bahwa kesalahan kecil yang aneh adalah masalah besar. mereka menunjukkan kurangnya pemahaman yang mendasar. Model saat ini tidak berpikir seperti ini