"ViT-5: Визионные трансформеры для середины 2020-х" В этой статье показано, что обычные визионные трансформеры все еще имеют много неиспользованных возможностей, с множеством недооптимизированных аспектов. Путем систематической замены на лучшие практики современных трансформеров, например, RMSNorm, 2D RoPE + абсолютные позиции, QK-норму, регистр токенов, LayerScale Вы получите простой и мощный ViT-бэкбон, который гораздо более стабилен, без необходимости изменять основную рецептуру внимания + FFN вообще!