"ViT-5: Vision Transformers voor het midden van de jaren 2020" Dit paper toont aan dat gewone Vision Transformers nog veel onbenutte mogelijkheden hebben, met veel onder-geoptimaliseerde aspecten. Door systematisch de beste praktijken van moderne transformers toe te passen, bijv. RMSNorm, 2D RoPE + absolute posities, QK-norm, registreer tokens, LayerScale Krijg je een eenvoudige drop-in ViT backbone die behoorlijk sterk en veel stabieler is, zonder dat je het kernrecept voor aandacht+FFN hoeft te veranderen!