"ViT-5: محولات الرؤية لمنتصف العشرينيات" تظهر هذه الورقة أن محولات الرؤية العادية لا تزال تقدم الكثير من الجوانب السهلة، مع العديد من الجوانب غير المحسنة. عن طريق تبديل أفضل ممارسات المحولات الحديثة بشكل منهجي، على سبيل المثال. RMSNorm، RoPE ثنائي الأبعاد + المواقع المطلقة، معيار QK، رموز السجل، LayerScale ستحصل على عمود فقري ViT بسيط ومباشر وقوي وأكثر استقرارا بكثير، دون الحاجة لتغيير وصفة الانتباه الأساسية + FFN على الإطلاق!