A conexão residual em um modelo transformer é geralmente implementada de uma dessas duas maneiras: Pré-Norm: x + Camada(Norm(x)) Pós-Norm: Norm(x + Camada(x)) Em Um Quadro Matemático para Circuitos Transformer, o fluxo residual é descrito como um espaço de trabalho central interno.