ماذا لو استطعت استبدال جزء أساسي من المحول بشيء أبسط وأقوى؟ يقدم باحثون من برينستون، وجامعة نيويورك، وكارنيجي ميونيو ديرف. قاموا بتبديل طبقة "التطبيع" القياسية بدالة بسيطة عنصرا بعنصر تسمى ديرف (مبنية على دالة خطأ غاوسية). إنه فقط يسحق القيم بسلاسة للحفاظ على استقرار التدريب. الآن يتفوق على LayerNorm وأفضل بديل سابق (DyT) في التعرف على الصور، وتوليد الصور الذكاء الاصطناعي، ونمذجة تسلسل الحمض النووي. محولات أقوى خالية من التطبيع الورقة: الرمز: تقريرنا: