Kết nối dư trong mô hình transformer thường được thực hiện theo một trong hai cách sau: Pre-Norm: x + Layer(Norm(x)) Post-Norm: Norm(x + Layer(x)) Trong Khung Toán Học cho Mạch Transformer, dòng dư được mô tả như một không gian làm việc trung tâm nội bộ.