"ViT-5: Transformator Visi untuk Pertengahan 2020-an" Makalah ini menunjukkan bahwa Vision Transformers polos masih memiliki banyak buah yang menggantung rendah, dengan banyak aspek yang kurang dioptimalkan. Dengan secara sistematis menukar praktik terbaik transformator modern, misalnya. RMSNorm, 2D RoPE + posisi absolut, norma QK, token daftar, LayerScale Anda akan mendapatkan tulang punggung ViT drop-in sederhana yang cukup kuat dan jauh lebih stabil, tanpa perlu mengubah resep inti perhatian + FFN sama sekali!