Pozdravte Exclusive Self Attention (XSA), což je (téměř) bezplatné vylepšení Transformers pro LM. Pozorování: pro y = attn(q, k, v) mají yi a vi tendenci mít velmi vysokou kosinusovou podobnost Oprava: vyloučit vi z yi přes zi = yi - (yiTvi)vi/‖vi‖² Výsledek: lepší ztráta trénování/hodnoty napříč velikostmi modelů; zvyšující se zisky s rostoucí délkou sekvence. Více informací: