"ViT-5 : Transformateurs de Vision pour le Milieu des Années 2020" Cet article montre que les Transformateurs de Vision classiques ont encore beaucoup de potentiel inexploité, avec de nombreux aspects sous-optimisés. En intégrant systématiquement les meilleures pratiques des transformateurs modernes, par exemple RMSNorm, 2D RoPE + positions absolues, QK-norm, tokens d'enregistrement, LayerScale Vous obtiendrez un backbone ViT simple à intégrer qui est assez puissant et beaucoup plus stable, sans avoir besoin de changer du tout la recette de l'attention centrale + FFN !