Si hei til Exclusive Self Attention (XSA), en (nesten) gratis forbedring av Transformers for LM. Observasjon: for y = attn(q, k, v), har yi og vi en tendens til å ha svært høy kosinuslikhet Fiks: ekskluder vi fra yi via zi = yi - (yiTvi)vi/‖vi‖² Resultat: bedre trening/verdi-tap på tvers av modellstørrelser; økende gevinster etter hvert som sekvenslengden øker. Se mer: