«ViT-5: Трансформери зору для середини 2020-х» У цій статті показано, що звичайні Vision Transformers досі мають багато простих результатів, з багатьма недооптимізованими аспектами. Систематично замінюючи сучасні найкращі практики трансформерів, наприклад, RMSNorm, 2D RoPE + абсолютні позиції, QK-норма, регісторні токени, LayerScale Ви отримаєте просту вертикальну основу ViT, яка досить міцна і стабільніша, без необхідності змінювати основний рецепт Attention+FFN!