"ViT-5: Visjonstransformatorer for midten av 2020-tallet" Denne artikkelen viser at vanlige Vision Transformers fortsatt har mange lavthengende frukter, med mange underoptimaliserte aspekter. Ved systematisk å bytte inn moderne transformers beste praksis, for eksempel. RMSNorm, 2D RoPE + absolutte posisjoner, QK-norm, registertokens, LayerScale Du får en enkel drop-in ViT-ryggrad som er ganske sterk og mye mer stabil, uten å måtte endre kjerneoppskriften + FFN-oppskriften i det hele tatt!