Мы обучили Composer самостоятельно подводить итоги с помощью RL вместо подсказки. Это снижает ошибку от сжатия на 50% и позволяет Composer успешно справляться с сложными задачами программирования, требующими сотен действий.