"ViT-5: Transformadores de Visión para Mediados de 2020" Este documento muestra que los Transformadores de Visión simples aún tienen muchas oportunidades sin explotar, con muchos aspectos suboptimizados. Al intercambiar sistemáticamente las mejores prácticas de los transformadores modernos, por ejemplo, RMSNorm, 2D RoPE + posiciones absolutas, QK-norm, tokens de registro, LayerScale Obtendrás un backbone ViT simple que es bastante fuerte y mucho más estable, ¡sin necesidad de cambiar en absoluto la receta central de atención+FFN!