Conexiunea reziduală într-un model de transformator este de obicei implementată în unul dintre următoarele două moduri: Pre-Norm: x + Layer(Norm(x)) Post-Norm: Norm(x + Layer(x)) În A Mathematical Framework for Transformer Circuits, fluxul rezidual este descris ca un spațiu central de lucru intern