变压器模型中的残差连接通常以这两种方式之一实现: 预归一化:x + 层(归一化(x)) 后归一化:归一化(x + 层(x)) 在《变压器电路的数学框架》中,残差流被描述为一个内部的中央工作空间