"ViT-5: Vision Transformer für die Mitte der 2020er Jahre" Dieses Papier zeigt, dass einfache Vision Transformer immer noch viele ungenutzte Potenziale haben, mit vielen unteroptimierten Aspekten. Durch systematisches Austauschen der besten Praktiken moderner Transformer, z.B. RMSNorm, 2D RoPE + absolute Positionen, QK-Norm, Registrierungs-Tokens, LayerScale Erhält man ein einfaches Drop-in ViT-Backbone, das ziemlich stark und viel stabiler ist, ohne dass man das Kernrezept für Attention + FFN überhaupt ändern muss!