L'architettura Transformer è fondamentalmente un processore parallelo di contesto, ma il ragionamento è un processo sequenziale e iterativo. Per risolvere problemi complessi, un modello ha bisogno di un "taccuino" non solo nel suo output CoT, ma anche nel suo stato interno. Un modo differenziabile per eseguire cicli, ramificare e tornare indietro fino a quando il modello non trova una soluzione che funzioni.