Sapa Exclusive Self Attention (XSA), peningkatan (hampir) gratis untuk Transformers untuk LM. Pengamatan: untuk y = attn(q, k, v), yi dan vi cenderung memiliki kesamaan kosinus yang sangat tinggi Perbaiki: kecualikan vi dari yi melalui zi = yi - (yiTvi)vi/‖vi‖² Hasil: pelatihan/kehilangan val yang lebih baik di seluruh ukuran model; meningkatkan keuntungan seiring bertambahnya panjang urutan. Lihat lebih lanjut: