фундаментальная проблема RL-обучения для корректности в кодогенерации, похоже, заключается в том, что модели учатся писать код, который может обрабатывать любые крайние случаи отличные инженеры знают, что странные мелкие ошибки имеют большое значение. они указывают на фундаментальное отсутствие понимания. современные модели не думают так.