"ViT-5: Vision Transformers pro polovinu 20. let 21. století" Tento článek ukazuje, že obyčejní Vision Transformers stále nabízí spoustu snadno dostupných plodů, s mnoha málo optimalizovanými aspekty. Systematickým začleněním nejlepších postupů moderních transformátorů, např. RMSNorm, 2D RoPE + absolutní pozice, QK-norm, registrační tokeny, LayerScale Dostal bys jednoduchý vkládací ViT backboster, který je docela silný a mnohem stabilnější, aniž bys musel měnit základní recepturu na pozornost+FFN!