"ViT-5: 2020'lerin Ortası için Vizyon Transformatörleri" Bu makale, sade Vizyon Transformers'ın hâlâ çok kolay asılan meyveleri olduğunu, birçok yönünün de optimize edilmediğini gösteriyor. Modern transformatörlerin en iyi uygulamalarını sistematik olarak değiştirerek, örneğin. RMSNorm, 2D RoPE + mutlak pozisyonlar, QK-norm, kayıt tokenları, LayerScale Temel dikkat+FFN tarifini değiştirmeye gerek kalmadan, oldukça güçlü ve çok daha stabil basit bir ViT omurga elde edersiniz!