"ViT-5: Transformadores de visión para mediados de los años 2020" Este artículo muestra que los Transformers de visión simples aún tienen muchas cosas fáciles de encontrar, con muchos aspectos poco optimizados. Al introducir sistemáticamente las mejores prácticas de los transformadores modernos, por ejemplo, RMSNorm, RoPE 2D + posiciones absolutas, QK-norm, tokens de registro, LayerScale Tendrías una columna vertebral ViT sencilla que se puede poner en escena, bastante fuerte y mucho más estable, ¡sin necesidad de cambiar la receta principal de atención+FFN!