"ViT-5: Transformadores de Visão para Meados da Década de 2020" Este artigo mostra que os Transformers de visão simples ainda têm muitos frutos à mão, com muitos aspectos subotimizados. Substituindo sistematicamente as melhores práticas dos transformadores modernos, por exemplo, RMSNorm, RoPE 2D + posições absolutas, QK-norm, tokens de registradores, LayerScale Você teria uma simples espinha dorsal ViT drop-in que é bem forte e muito mais estável, sem precisar mudar a receita principal de atenção + FFN!