Restforbindelsen i en transformatormodell implementeres vanligvis på en av disse to måtene: Pre-Norm: x + Layer(Norm(x)) Post-Norm: Norm(x + Layer(x)) I A Mathematical Framework for Transformer Circuits beskrives residualstrømmen som et internt sentralt arbeidsrom