Sag Hallo zu Exclusive Self Attention (XSA), einer (nahezu) kostenlosen Verbesserung für Transformer in der Sprachmodellierung. Beobachtung: für y = attn(q, k, v) haben yᵢ und vᵢ tendenziell eine sehr hohe Kosinusähnlichkeit. Lösung: schließe vᵢ von yᵢ aus über zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Ergebnis: bessere Trainings-/Validierungsverluste über verschiedene Modellgrößen; zunehmende Gewinne mit wachsender Sequenzlänge. Siehe mehr: