قل مرحبا ل Exclusive Self Attention (XSA)، وهو تحسين (تقريبا) مجاني للعبة Transformers for LM. ملاحظة: بالنسبة ل y = attn(q, k, v)، تميل yi و vi إلى أن يكون لهما تشابه جيب تمام مرتفع جدا تصحيح: استبعاد vi من yi عبر zi = yi - (yiTvi)vi/‖vi‖² النتيجة: تدريب أفضل/فقدان القيمة عبر أحجام النماذج؛ زيادة المكاسب مع زيادة طول التسلسل. انظر المزيد: