"ViT-5: Vision Transformers per la metà degli anni 2020" Questo documento dimostra che i Vision Transformers semplici hanno ancora molte opportunità da sfruttare, con molti aspetti non ottimizzati. Sostituendo sistematicamente le migliori pratiche dei moderni transformer, ad esempio RMSNorm, 2D RoPE + posizioni assolute, QK-norm, registrare token, LayerScale Si otterrebbe un semplice backbone ViT che è piuttosto potente e molto più stabile, senza la necessità di cambiare affatto la ricetta core di attenzione+FFN!