Архитектура Transformer по своей сути является параллельным процессором контекста, но рассуждение — это последовательный, итеративный процесс. Чтобы решать сложные задачи, модели нужен "черновик" не только в ее выходном CoT, но и в ее внутреннем состоянии. Дифференцируемый способ циклического выполнения, ветвления и возврата до тех пор, пока модель не найдет работающее решение.