"ViT-5: Vision Transformers cho giữa những năm 2020" Bài báo này cho thấy rằng Vision Transformers thông thường vẫn còn nhiều tiềm năng chưa được khai thác, với nhiều khía cạnh chưa được tối ưu hóa. Bằng cách hệ thống hóa việc áp dụng các thực tiễn tốt nhất của transformer hiện đại, ví dụ như RMSNorm, 2D RoPE + vị trí tuyệt đối, QK-norm, đăng ký token, LayerScale Bạn sẽ có một backbone ViT đơn giản mà mạnh mẽ và ổn định hơn nhiều, mà không cần phải thay đổi công thức attention+FFN cốt lõi chút nào!