在代碼生成的正確性上,強化學習的一個根本問題似乎是模型學會編寫能處理任何邊緣情況的代碼。 優秀的工程師知道,奇怪的小錯誤是大問題。它們表明對基本概念的理解存在根本性的缺失。當前的模型並不這樣思考。