A conexão residual em um modelo de transformador geralmente é implementada de duas maneiras: Pré-Norm: x + Camada(Norm(x)) Pós-Norm: Norm(x + Camada(x)) Em A Mathematical Framework for Transformer Circuits, o fluxo residual é descrito como um espaço de trabalho central interno