"ViT-5: Transformatoare de vedere pentru mijlocul anilor 2020" Această lucrare arată că transformatoarele simple de viziune încă au multe rezultate ușor de găsit, cu multe aspecte suboptimizate. Prin înlocuirea automată a celor mai bune practici ale transformerelor moderne, de exemplu RMSNorm, RoPE 2D + poziții absolute, QK-norm, tokenuri de registru, LayerScale Ai primi o coloană vertebrală ViT simplă, drop-in, destul de puternică și mult mai stabilă, fără să fie nevoie să schimbi rețeta de atenție principală+FFN!