"ViT-5: Wizje Transformatorów na Środek Lat 2020" Niniejszy artykuł pokazuje, że zwykłe Wizje Transformatorów wciąż mają wiele łatwych do osiągnięcia celów, z wieloma niedostatecznie zoptymalizowanymi aspektami. Poprzez systematyczne wprowadzanie najlepszych praktyk nowoczesnych transformatorów, np. RMSNorm, 2D RoPE + pozycje absolutne, QK-norm, rejestracja tokenów, LayerScale Można uzyskać prosty, łatwy do wprowadzenia szkielet ViT, który jest dość silny i znacznie bardziej stabilny, bez potrzeby zmiany podstawowego przepisu na uwagę + FFN!